Bem-vindo à nova era da IA. Espere, você provavelmente está presumindo que já estávamos aproveitando o brilho da inteligência artificial? Sim e não, pelo menos de acordo com o Google. O monólito tecnológico por trás do Gemini está pronto para nos mostrar o Gemini 2.0, que, segundo o Google, capacitará os agentes a operar seu telefone ou dispositivo e todos os seus aplicativos em seu nome com IA “agentica”.
O que torna o 2.0 uma atualização completa em relação à primeira instância do Gemini lançada em dezembro do ano passado (embora tenha demorado vários meses para chegar ao Android e ao iPhone com o Gemini 1.5)? Por um lado, ele deve oferecer respostas mais rápidas com base em suas solicitações. Embora o Gemini 1.5 possa gerar imagens de IA com o modelo Imagen 3 da empresa, a nova versão também terá saída de áudio de IA. O aspecto mais importante do 2.0, disse o Google, é que ele foi feito para agentes de IA.
Se você nunca ouviu a palavra da moda antes, pense em agentes — ou “agentificação” — como vários modelos de IA que se comunicam entre si. A ideia é que a IA possa essencialmente assumir o controle do seu telefone conforme sua solicitação. Se você deseja que a IA analise seus e-mails, retire a reserva para a data e coloque-a em seu calendário, um agente de IA deve ser capaz de cuidar disso.
Esse “assistente universal”, como o Google o chama, começa com o Gemini 2.0 Flash, que deve estar disponível a partir de quarta-feira para todos os usuários do Gemini. Se você possui o Gemini Advanced, obtém uma nova ferramenta chamada Deep Research, uma espécie de agente de IA que faz todas as suas pesquisas na Internet para você e depois gera um grande relatório de livro. A ferramenta do Google supostamente permitirá que os usuários “façam suas próprias pesquisas” e gerem relatórios em poucos minutos. Teremos que esperar e ver quantos alunos tentarão fazer com que esses relatórios sejam seu próprio trabalho.
A Deep Research é tecnicamente um agente, mas o Google disse que mais desenvolvedores também estão trabalhando para fazer com que a IA agente funcione em seus próprios aplicativos. No que diz respeito aos exemplos, a empresa de Mountain View, Califórnia, mostrou como uma IA agente baseada no Gemini 2.0 poderia criar, avaliar, mesclar e executar código em tempo real. É uma nova ferramenta “Jules” semelhante ao GitHub Copilot da Microsoft.
A empresa também promoveu um vídeo do Gemini 2.0 interagindo com diversos jogos mobile da Supercell como Conflito de Clãs. A IA poderia ler a tela e oferecer conselhos sobre o meta atual para Caçadores de esquadrão. Também pode lembrar os jogadores de completar seus desafios diários para ganhar aquela doce moeda do jogo. Isso é muito emocionante? Não, não necessariamente. O treinamento da IA parecia superficial, não oferecendo nenhum conselho ou estratégia além de criar escolhas que você pudesse consultar entre as partidas.
A verdadeira IA “agente” pode ser o tão esperado Projeto Astra do Google DeepMind. O Gizmodo o usou em uma iteração anterior no Google I/O no início deste ano. A ferramenta é semelhante ao Gemini Live, mas com muito mais recursos de visão e interpretação com a câmera do seu telefone. A nova iteração deve resultar em um diálogo melhor e mais coloquial. Ele também deve lembrar suas conversas e agora pode operar com a Pesquisa Google, Google Lens e Google Maps.
Ainda não há informações sobre quando o Astra estará disponível para mais usuários. Por enquanto, o recurso está simplesmente em fase de testes e partes dele provavelmente serão moldadas em vários produtos Gemini no futuro.
O modelo de ‘pesquisa profunda’ do Google deve fazer você se sentir como um profissional de pesquisa do Google com o Gemini 2.0
A toca do coelho na Internet é profunda, mas o Google diz que tem uma nova ferramenta para cavar para você. Se você pode confiar em tudo, isso arranca da rede. A ferramenta Deep Research da empresa cria primeiro um “plano de pesquisa” que é essencialmente um esboço de um relatório geral. Em seguida, ele percorre uma lista de sites que considera aplicáveis antes de expor tudo em um relatório de várias páginas, completo com algumas tabelas e gráficos. Ele exibe onde obteve suas informações na parte inferior.
A ferramenta está disponível para todos os usuários do Gemini Advanced em inglês a partir de hoje. Atualmente, está disponível apenas em dispositivos desktop, como Chromebooks ou por meio do navegador, embora a versão móvel deva estar disponível no próximo ano.
Todo esse processo pode levar algum tempo. Por exemplo, pedi à Gemini Advanced que pesquisasse a história da DeepMind com o Google antes da sua aquisição em 2014. A Gemini expôs o seu plano de investigação, incluindo as fases iniciais da DeepMind e o financiamento através das suas publicações académicas. O Google diz que você precisa selecionar “1.5 Pro com pesquisa profunda” no menu suspenso, embora não estivesse disponível em minha conta no momento em que este livro foi escrito. O chatbot de IA alegou que sabia o que deveria fazer, então solicitei que ele concluísse o relatório; Comecei a esperar… e esperar.
O blog do Google menciona que a ferramenta deve levar “alguns minutos” para refinar sua análise. Acionei o Gemini Advanced e perguntei quanto tempo a pesquisa levaria. Gemini disse que levaria “6 a 12 horas para concluir o relatório”.
A ferramenta é obviamente nova e a IA pode não ser precisa quando me informa o horário, mas não posso deixar de rir. A IA leva quase o mesmo tempo que um estudante médio levaria para criar um relatório de última hora na noite anterior ao vencimento.
A Deep Research do Google é executada no modelo Gemini maior, com uma janela de contexto de 1 milhão de tokens, mas isso não significa que seja necessariamente preciso. A Pesquisa AI do Google muitas vezes pode escolher alguns sites que podem não ser os mais precisos ou podem apresentar informações limpas de sites não confiáveis. É por isso que as ferramentas Gemini lembram os usuários de “verificar novamente” todas as suas respostas abaixo do prompt de texto.