A maioria dos benchmarks de IA não nos diz muito. Eles fazem perguntas que podem ser resolvidas com memorização mecânica ou cobrem tópicos que não são relevantes para a maioria dos usuários.
Portanto, alguns entusiastas da IA estão recorrendo aos jogos como uma forma de testar as habilidades de resolução de problemas das IAs.
Paul Calcraft, um desenvolvedor freelance de IA, criou um aplicativo onde dois modelos de IA podem jogar um jogo semelhante ao Pictionary entre si. Um modelo rabisca, enquanto o outro modelo tenta adivinhar o que o rabisco representa.
“Achei que isso parecia muito divertido e potencialmente interessante do ponto de vista das capacidades do modelo”, disse Calcraft ao TechCrunch em uma entrevista. “Então, sentei-me dentro de casa em um sábado nublado e fiz isso.”
Calcraft foi inspirado em um projeto semelhante do programador britânico Simon Willison, que encarregou os modelos de renderizar um desenho vetorial de um pelicano andando de bicicleta. Willison, assim como Calcraft, escolheu um desafio que ele acreditava que forçaria os modelos a “pensar” além do conteúdo dos seus dados de treinamento.
“A ideia é ter um benchmark que não seja jogável”, disse Calcraft. “Uma referência que não pode ser superada memorizando respostas específicas ou padrões simples que foram vistos antes durante o treinamento.”
O Minecraft também está nesta categoria “não jogável”, ou pelo menos é o que acredita Adonis Singh, de 16 anos. Ele criou uma ferramenta, Mcbench, que dá ao modelo controle sobre um personagem do Minecraft e testa sua capacidade de projetar estruturas, nos moldes do Projeto Malmo da Microsoft.
“Acredito que o Minecraft testa os modelos em termos de desenvoltura e lhes dá mais agência”, disse ele ao TechCrunch. “Não é tão restrito e saturado quanto (outros) benchmarks.”
Usar jogos para avaliar a IA não é novidade. A ideia remonta a décadas: o matemático Claude Shannon argumentou em 1949 que jogos como o xadrez eram um desafio válido para software “inteligente”. Mais recentemente, DeepMind da Alphabet desenvolveu um modelo que poderia jogar Pong e Breakout; OpenAI treinou IA para competir em partidas de Dota 2; e Meta projetou um algoritmo que poderia resistir contra jogadores profissionais de Texas Hold’em.
Mas o que é diferente agora é que os entusiastas estão conectando grandes modelos de linguagem (LLMs) – modelos com a capacidade de analisar texto, imagens e muito mais – a jogos para testar o quão bons eles são em lógica.
Há uma abundância de LLMs por aí, de Gemini e Claude a GPT-4o, e todos eles têm “vibrações” diferentes, por assim dizer. Eles “sentem-se” diferentes de uma interação para outra – um fenômeno que pode ser difícil de quantificar.
“Os LLMs são conhecidos por serem sensíveis às formas específicas como as perguntas são feitas e geralmente não são confiáveis e são difíceis de prever”, disse Calcraft.
Em contraste com os benchmarks baseados em texto, os jogos fornecem uma forma visual e intuitiva de comparar o desempenho e o comportamento de um modelo, disse Matthew Guzdial, pesquisador de IA e professor da Universidade de Alberta.
“Podemos pensar em cada referência como algo que nos proporciona uma simplificação diferente da realidade, focada em tipos específicos de problemas, como raciocínio ou comunicação”, disse ele. “Os jogos são apenas outras maneiras de tomar decisões com IA, então as pessoas os estão usando como qualquer outra abordagem.”
Aqueles familiarizados com a história da IA generativa notarão como o Pictionary é semelhante às redes adversárias generativas (GANs), nas quais um modelo criador envia imagens para um modelo discriminador que as avalia.
Calcraft acredita que o Pictionary pode capturar a capacidade de um LLM de compreender conceitos como formas, cores e preposições (por exemplo, o significado de “in” versus “on”). Ele não chegaria ao ponto de dizer que o jogo é um teste confiável de raciocínio, mas argumentou que vencer requer estratégia e capacidade de compreender pistas – nenhum dos modelos considera fácil.
“Também gosto muito da natureza quase adversária do jogo Pictionary, semelhante aos GANs, onde você tem duas funções diferentes: um empata e o outro adivinha”, disse ele. “O melhor para desenhar não é o mais artístico, mas aquele que consegue transmitir a ideia com mais clareza ao público de outros LLMs (inclusive aos modelos mais rápidos e muito menos capazes!).”
“O pictionary é um problema de brinquedo que não é imediatamente prático ou realista”, advertiu Calcraft. “Dito isso, acho que a compreensão espacial e a multimodalidade são elementos críticos para o avanço da IA, então o LLM Pictionary pode ser um pequeno passo inicial nessa jornada.”
Singh acredita que o Minecraft também é uma referência útil e pode medir o raciocínio em LLMs. “Dos modelos que testei até agora, os resultados se alinham literalmente perfeitamente com o quanto confio no modelo para algo relacionado ao raciocínio”, disse ele.
Outros não têm tanta certeza.
Mike Cook, pesquisador da Queen Mary University especializado em IA, não acha que o Minecraft seja particularmente especial como teste de IA.
“Acho que parte do fascínio pelo Minecraft vem de pessoas fora da esfera dos jogos que talvez pensem que, por se parecer com o ‘mundo real’, ele tem uma conexão mais próxima com o raciocínio ou ação do mundo real”, disse Cook ao TechCrunch. “Do ponto de vista da resolução de problemas, não é tão diferente de um videogame como Fortnite, Stardew Valley ou World of Warcraft. Ele só tem uma cobertura diferente que faz com que pareça mais um conjunto de tarefas cotidianas, como construir coisas ou explorar.”
Na opinião de Cook, mesmo os melhores sistemas de IA para jogos geralmente não se adaptam bem a novos ambientes e não conseguem resolver facilmente problemas que nunca viram antes. Por exemplo, é improvável que um modelo que se destaque no Minecraft jogue Doom com alguma habilidade real.
“Acho que as boas qualidades que o Minecraft tem do ponto de vista da IA são sinais de recompensa extremamente fracos e um mundo processual, o que significa desafios imprevisíveis”, continuou Cook. “Mas não é muito mais representativo do mundo real do que qualquer outro videogame.”
Sendo esse o caso, com certeza há algo fascinante em observar LLMs construindo castelos.