Role, Darwin: como a ‘evolução da mente’ do Google DeepMind poderia melhorar o pensamento da IA

aievolve-gettyimages-1677922068

pormuratdeniz/Getty Images

Uma das grandes tendências na inteligência artificial no ano passado tem sido o emprego de vários truques durante a inferência – o acto de fazer previsões – para melhorar drasticamente a precisão dessas previsões.

Por exemplo, a cadeia de pensamento – ter um modelo de linguagem grande (LLM) que explica a lógica de uma resposta em uma série de afirmações – pode levar a uma maior precisão nos testes de benchmark.

Esse “pensamento” aparentemente levou a avanços na precisão em testes abstratos de resolução de problemas, como a pontuação alta do GPTo3 da OpenAI no mês passado no teste ARC-AGI.

Também: O3 da OpenAI ainda não é AGI, mas fez algo que nenhuma outra IA fez

Acontece, porém, que os LLMs ainda ficam aquém de testes muito práticos, algo tão simples como planejar uma viagem.

Pesquisadores do Google DeepMind, liderados por Kuang-Huei Lee, apontaram em um relatório na semana passada que o Gemini do Google e o GPTo1 da OpenAI, os melhores modelos respectivos das empresas, falharam miseravelmente quando testados no TravelPlanner, um teste de benchmark introduzido no ano passado por acadêmicos da Universidade Fudon. , Penn State e Meta AI.

Com a tarefa de formular um itinerário de viagem para atender a requisitos como cidades visitadas, tempo gasto e orçamento de viagem, os dois modelos de IA tiveram sucesso apenas 5,6% e 11,7% das vezes, respectivamente.

Dados os fracos resultados dos principais modelos, Lee e a equipe propõem um avanço além da cadeia de pensamento e abordagens semelhantes que, segundo eles, são dramaticamente mais precisos em testes como o TravelPlanner.

Chamada de “evolução da mente”, a nova abordagem é uma forma de procurar respostas possíveis – mas com uma diferença.

Os autores adotam um algoritmo de inspiração genética que induz um LLM, como o Gemini 1.5 Flash, a gerar múltiplas respostas a um prompt, que são então avaliadas para determinar qual é o mais “adequado” para responder à pergunta.

Também: Os novos modelos Gemini do Google alcançam ‘recordação quase perfeita’

No mundo real, a evolução acontece através da seleção natural, onde as entidades são avaliadas quanto à “adequação” ao seu ambiente. Os mais aptos se combinam para produzir descendentes e, ocasionalmente, ocorrem mutações genéticas benéficas. Todo o processo leva a organismos progressivamente mais “ótimos”.

Da mesma forma, a evolução mental de Lee e da equipe faz com que as múltiplas respostas do LLM sejam avaliadas quanto à sua correspondência com a pergunta solicitada. Esse processo força então o LLM a modificar o seu resultado para ser melhor – uma espécie de recombinação e mutação como visto na selecção natural. Ao mesmo tempo, a produção de baixa qualidade é “aposentada”, como se fossem entidades más eliminadas da espécie através da selecção natural.

deepmind-2025-volving-deeper-llm-thinking-jpeg.png

DeepMind

O objetivo dessa abordagem evolutiva é que é difícil encontrar boas soluções de uma só vez, mas é relativamente fácil eliminar as ruins e tentar novamente. Como escrevem: “Esta abordagem explora a observação de que muitas vezes é mais fácil avaliar a qualidade de uma solução candidata do que gerar boas soluções para um determinado problema”.

A chave é qual a melhor forma de avaliar as múltiplas respostas do modelo de IA. Para fazer isso, os autores recorrem a uma estratégia de estímulo bem estabelecida. Em vez de apenas uma cadeia de pensamentos, eles fazem com que o modelo conduza uma espécie de diálogo.

O LLM é solicitado a retratar duas personas em diálogo, uma das quais é um crítico e a outra, um autor. O autor propõe soluções, como um plano de viagem, e o crítico aponta onde há falhas.

Além disso: a transformação da IA ​​é uma faca de dois gumes. Veja como evitar os riscos

“Aproveitamos um LLM para gerar uma solução aprimorada, organizando uma conversa crítica entre um personagem ‘crítico’ e um personagem ‘autor’”, escrevem Lee e equipe. “Cada turno de conversação é estruturado como um processo orientado por prompt, onde as soluções são refinadas com base em feedback crítico”, escrevem eles.

São usados ​​prompts bastante longos, mostrando exemplos de soluções propostas no LLM e onde eles encontraram problemas. O prompt fornece instruções ao modelo sobre como desempenhar os dois papéis, como: “Jane, lembre-se de que você é a melhor do mundo em analisar planos de viagem falhos” e “John, lembre-se de que você é o melhor em o mundo na elaboração de planos de viagem com orçamento baseado nas análises de Jane.”

O Gemini 1.5 Flash foi testado em vários benchmarks de planejamento. No TravelPlanner, Gêmeos com a abordagem de evolução da mente ultrapassa a taxa de sucesso típica de 5,6% para chegar a 95,2%, relatam eles. E, quando usam o modelo Gemini Pro mais potente, é quase perfeito, 99,9%.

Além disso: os escritores expressam ansiedade sobre o uso de IA. Os leitores não parecem se importar

Os resultados, escrevem Lee e a equipe, mostram “uma clara vantagem de uma estratégia evolutiva”, combinando tanto a busca por possíveis soluções em termos muito amplos, quanto também o uso do modelo de linguagem para refinar essas soluções com as funções de autor-crítico.

A má notícia é que a evolução da mente requer muito mais poder computacional do que a abordagem normal do Gemini. A versão Flash com evolução mental faz 167 chamadas de API para o modelo em comparação com uma única chamada quando o Flash está operando normalmente. O Mind Evolution também consome três milhões de tokens por causa dos prompts muito longos, contra 9.000 para o Gemini normal.

A boa notícia é que, embora exija mais computação, a evolução da mente ainda é mais eficiente do que outros tipos de estratégias de pesquisa que inspecionam muitas respostas possíveis do modelo de IA.

Na verdade, a evolução da mente fica cada vez melhor quanto mais resultados possíveis ela avalia, como seria de esperar de algo que deveria estar evoluindo para ser mais adequado. Parece que o repetido diálogo crítico está contribuindo de alguma forma concreta.

Além disso: Como o ‘ChatGPT da saúde’ poderia acelerar o tratamento da artrite reumatóide

“A evolução da mente é consistentemente mais eficaz do que as estratégias básicas no que diz respeito ao número de soluções candidatas necessárias para atingir um nível especificado de taxa de sucesso (ou desempenho médio da tarefa)”, observam os autores.

Em uma reviravolta divertida, Lee e sua equipe adicionam à mistura seu próprio benchmark, chamado StegPoet, que testa a capacidade do Gemini de realizar esteganografia, a prática de esconder uma mensagem em um bloco de texto. (Não deve ser confundido com “estenografia”, a prática de transcrever a fala por meio de taquigrafia.)

Na versão de esteganografia dos autores, uma série de números de dois dígitos deve ser atribuída a palavras comuns e, em seguida, as palavras devem ser compostas em um poema para ocultar o código numérico. O problema se torna mais difícil à medida que a sequência de números se torna mais longa e cada número é repetido com mais frequência.

Curiosamente, o StegPoet revela-se bastante desafiador até mesmo para a evolução da mente. Gemini Flash usando o truque da evolução acerta apenas 43,3% das vezes, menos do que uma chance aleatória. E o Gemini Pro atinge apenas 79%. Ambos, no entanto, são muito melhores do que o Gemini sem ajuda ou as estratégias de busca típicas.

A observação mais importante da evolução mental de Lee e da equipe é que a inferência é um rico campo de invenção que está encontrando novas maneiras de obter melhores resultados, além de simplesmente elaborar melhores instruções.

Uma omissão importante no trabalho dos autores é como pegar o enorme orçamento computacional da evolução da mente e reduzi-lo. Cada nova abordagem que cria prompts complexos com milhões de tokens apenas aumenta o custo de obter respostas melhores. Em algum momento, colocar tudo isso em um orçamento torna-se importante.


Rolar para cima