Os modelos atuais de IA estão realmente lembrando, pensando, planejando e raciocinando, assim como o cérebro humano faria? Alguns laboratórios de IA querem que você acredite que sim, mas de acordo com o cientista-chefe de IA da Meta, Yann LeCun, a resposta é não. Ele acha que poderíamos chegar lá em cerca de uma década, porém, seguindo um novo método chamado “modelo mundial”.
No início deste ano, a OpenAI lançou um novo recurso chamado “memória” que permite ao ChatGPT “lembrar” suas conversas. A última geração de modelos da startup, o1, exibe a palavra “pensamento” enquanto gera um resultado, e a OpenAI afirma que os mesmos modelos são capazes de “raciocínio complexo”.
Tudo isso parece que estamos muito próximos do AGI. No entanto, durante uma palestra recente no Hudson Forum, LeCun derrotou os otimistas da IA, como o fundador da xAI, Elon Musk, e o cofundador do Google DeepMind, Shane Legg, que sugerem que a IA de nível humano está chegando.
“Precisamos de máquinas que entendam o mundo; (máquinas) que podem lembrar coisas, que têm intuição, têm bom senso, coisas que podem raciocinar e planejar no mesmo nível que os humanos”, disse LeCun durante a palestra. “Apesar do que você pode ter ouvido de algumas das pessoas mais entusiasmadas, os atuais sistemas de IA não são capazes de fazer nada disso.”
LeCun diz que os grandes modelos de linguagem atuais, como aqueles que alimentam o ChatGPT e o Meta AI, estão longe de ser uma “IA de nível humano”. A humanidade poderia estar “anos ou décadas” longe de alcançar tal coisa, disse ele mais tarde. (Isso não impede seu chefe, Mark Zuckerberg, de perguntar quando a AGI acontecerá.)
A razão é simples: esses LLMs funcionam prevendo o próximo token (geralmente algumas letras ou uma palavra curta), e os modelos de imagem/vídeo atuais estão prevendo o próximo pixel. Em outras palavras, os modelos de linguagem são preditores unidimensionais e os modelos de imagem/vídeo de IA são preditores bidimensionais. Esses modelos tornaram-se muito bons em prever suas respectivas dimensões, mas não entendem realmente o mundo tridimensional.
Por causa disso, os sistemas modernos de IA não podem realizar tarefas simples que a maioria dos humanos consegue. LeCun observa como os humanos aprendem a limpar a mesa de jantar aos 10 anos e a dirigir um carro aos 17 – e aprendem ambos em questão de horas. Mas mesmo os sistemas de IA mais avançados do mundo atualmente, construídos com base em milhares ou milhões de horas de dados, não conseguem operar de forma confiável no mundo físico.
Para realizar tarefas mais complexas, LeCun sugere que precisamos construir modelos tridimensionais que possam perceber o mundo ao seu redor e centrar-se em um novo tipo de arquitetura de IA: modelos mundiais.
“Um modelo mundial é o seu modelo mental de como o mundo se comporta”, explicou ele. “Você pode imaginar uma sequência de ações que pode realizar, e seu modelo de mundo lhe permitirá prever qual será o efeito da sequência de ações no mundo.”
Considere o “modelo mundial” em sua própria cabeça. Por exemplo, imagine olhar para um quarto bagunçado e querer limpá-lo. Você pode imaginar como pegar todas as roupas e guardá-las resolveria o problema. Você não precisa tentar vários métodos ou aprender como limpar um ambiente primeiro. Seu cérebro observa o espaço tridimensional e cria um plano de ação para atingir seu objetivo na primeira tentativa. Esse plano de ação é o molho secreto que os modelos mundiais de IA prometem.
Parte do benefício aqui é que os modelos mundiais podem absorver significativamente mais dados do que os LLMs. Isso também os torna computacionalmente intensivos, e é por isso que os provedores de nuvem estão correndo para fazer parcerias com empresas de IA.
Os modelos mundiais são a grande ideia que vários laboratórios de IA estão agora a perseguir, e o termo está rapidamente a tornar-se a próxima palavra da moda para atrair financiamento de risco. Um grupo de pesquisadores de IA altamente conceituados, incluindo Fei-Fei Li e Justin Johnson, acaba de arrecadar US$ 230 milhões para sua startup, World Labs. A “madrinha da IA” e a sua equipa também estão convencidas de que os modelos mundiais irão desbloquear sistemas de IA significativamente mais inteligentes. A OpenAI também descreve seu inédito gerador de vídeo Sora como um modelo mundial, mas não entrou em detalhes.
LeCun delineou uma ideia para usar modelos mundiais para criar IA de nível humano em um artigo de 2022 sobre “IA orientada por objetivos”, embora ele observe que o conceito tem mais de 60 anos. Em suma, uma representação básica do mundo (como um vídeo de um quarto sujo, por exemplo) e a memória são alimentadas num modelo de mundo. Então, o modelo mundial prevê como será o mundo com base nessas informações. Em seguida, você fornece objetivos ao modelo mundial, incluindo um estado alterado do mundo que você gostaria de alcançar (como uma sala limpa), bem como grades de proteção para garantir que o modelo não prejudique os humanos para atingir um objetivo (não matar eu no processo de limpeza do meu quarto, por favor). Então o modelo mundial encontra uma sequência de acção para atingir estes objectivos.
O laboratório de pesquisa de IA de longo prazo da Meta, FAIR ou Fundamental AI Research, está trabalhando ativamente para construir modelos mundiais e de IA orientados por objetivos, de acordo com LeCun. A FAIR costumava trabalhar em IA para os próximos produtos da Meta, mas LeCun diz que o laboratório mudou nos últimos anos para se concentrar exclusivamente em pesquisas de IA de longo prazo. LeCun diz que a FAIR nem usa LLMs atualmente.
Os modelos mundiais são uma ideia intrigante, mas LeCun diz que não fizemos muito progresso na concretização destes sistemas. Há muitos problemas muito difíceis de resolver a partir de onde estamos hoje, e ele diz que é certamente mais complicado do que pensamos.
“Vai levar anos até conseguirmos que tudo aqui funcione, se não uma década”, disse Lecun. “Mark Zuckerberg vive me perguntando quanto tempo isso vai demorar.”