Tempo de leitura: 7 minutos

Sam Altman e representantes da OpenAI discutem o desempenho do novo modelo o3 no teste ARC-AGI.

OpenAI/ZDNET

O mais recente modelo de linguagem grande da OpenAI ainda não está disponível, mas já temos algumas maneiras de saber o que ele pode ou não fazer.

O lançamento “o3” da OpenAI foi revelado em 20 de dezembro na forma de um infomercial em vídeo, o que significa que a maioria das pessoas fora da empresa não tem ideia do que ele realmente é capaz. (As partes externas dos testes de segurança estão recebendo acesso antecipado.)

Além disso: 15 maneiras pelas quais a IA me economizou tempo no trabalho em 2024

Embora o vídeo apresentasse muita discussão sobre várias conquistas de benchmark, a mensagem do cofundador e CEO da OpenAI, Sam Altman, no vídeo foi muito breve. Sua maior afirmação, e ainda assim vaga, foi que o3 “é um modelo incrivelmente inteligente”.

O que você vai ler:

ARC-AGI colocou o3 à prova

A OpenAI planeja lançar a versão “mini” do o3 no final de janeiro e a versão completa algum tempo depois, disse Altman.

Um estranho, no entanto, teve a oportunidade de colocar o3 à prova, em certo sentido.

O teste, neste caso, é chamado de “Corpus de Abstração e Raciocínio para Inteligência Geral Artificial”, ou ARC-AGI. É uma coleção de “desafios para sistemas inteligentes”, um novo referencial. O ARC-AGI é considerado “o único benchmark projetado especificamente para medir a adaptabilidade à novidade”. Isso significa que se pretende testar a aquisição de novas competências e não apenas a utilização de conhecimentos memorizados.

Além disso: Por que a ética está se tornando o maior desafio da IA

AGI, inteligência artificial geral, é considerada por alguns na IA como o Santo Graal – a conquista de um nível de inteligência de máquina que pode igualar ou exceder a inteligência humana. A ideia do ARC-AGI é orientar a IA em direção a “sistemas artificiais mais inteligentes e mais semelhantes aos humanos”.

O modelo o3 obteve 76% de precisão no ARC-AGI em uma avaliação formalmente coordenada pela OpenAI e pelo autor do ARC-AGI, François Chollet, cientista da unidade de inteligência artificial do Google.

Uma mudança nas capacidades de IA

No site da ARC-AGI, Chollet escreveu na semana passada que a pontuação de 76% é a primeira vez que a IA supera a pontuação de um ser humano no exame, como exemplificado pelas respostas dos trabalhadores humanos do Mechanical Turk que fizeram o teste e que, em média, pontuaram pouco acima de 75% de acertos.

Chollet escreveu que a pontuação alta é “um aumento surpreendente e importante de função escalonada nas capacidades de IA, mostrando uma nova capacidade de adaptação de tarefas nunca vista antes nos modelos da família GPT”. Ele acrescentou: “Toda a intuição sobre os recursos de IA precisará ser atualizada para o3”.

A conquista marca “um avanço genuíno” e “uma mudança qualitativa nas capacidades de IA”, declarou Chollet. Chollet prevê que a capacidade da o3 de “se adaptar a tarefas que nunca encontrou antes” significa que “você deve planejar para que essas capacidades se tornem competitivas com o trabalho humano dentro de um prazo bastante curto”.

As observações de Chollet são dignas de nota porque ele nunca foi um líder de torcida da IA. Em 2019, quando criou a ARC-AGI, ele me disse em uma entrevista que tivemos para a ZDNET que o fluxo constante de “artigos de imprensa bombásticos” de empresas de IA “sugerem erroneamente que a IA de nível humano talvez esteja a alguns anos de distância”, enquanto ele considerava tal hipérbole “uma ilusão”.

As questões ARC-AGI são fáceis de entender e bastante fáceis de resolver. Cada desafio mostra de três a cinco exemplos da pergunta e da resposta certa, e o candidato recebe uma pergunta semelhante e é solicitado a fornecer a resposta que falta.

arc-agi-competição-amostra-2 — A forma básica do ARC-AGI é ter três a cinco exemplos de entrada e saída, que representam a pergunta e a sua resposta, e depois um exemplo final de entrada para o qual a resposta precisa ser fornecida, fornecendo a imagem de saída correta. É muito fácil para um ser humano descobrir que imagem produzir tocando em pixels coloridos, mesmo que não consiga articular a regra em si.

Prêmio ARC

As perguntas não são baseadas em texto, mas consistem em imagens. Uma grade de pixels com formas coloridas é mostrada primeiro, seguida por uma segunda versão que foi alterada de alguma forma. A questão é: Qual é a regra que transforma a imagem inicial na segunda imagem?

Em outras palavras, o desafio não depende diretamente da linguagem natural, a famosa área dos grandes modelos de linguagem. Em vez disso, testa a formulação de padrões abstratos no domínio visual.

Experimente o ARC-AGI você mesmo

Você pode experimentar o ARC-AGI no site do desafio de Chollet. Você responde ao desafio “desenhando” uma grade vazia, preenchendo cada pixel com a cor certa para criar a grade correta de pixels coloridos como “resposta”.

É divertido, como jogar Sudoku ou Tetris. Provavelmente, mesmo que você não consiga articular verbalmente qual é a regra, você descobrirá rapidamente quais caixas precisam ser coloridas para produzir a solução. A parte mais demorada é tocar em cada pixel da grade para atribuir sua cor.

Além disso: por que a descoberta quântica do Google é ‘verdadeiramente notável’ – e o que acontece a seguir

Uma resposta correta produz uma animação de lançamento de confete na página da web e a mensagem: “Você resolveu o quebra-cabeça diário do Prêmio ARC. Você ainda é (geralmente) mais inteligente do que a IA.”

Observe que quando o3 ou qualquer outro modelo faz o teste, ele não atua diretamente nos pixels. Em vez disso, o equivalente é alimentado na máquina como uma matriz de linhas e colunas de números que deve ser transformada em uma matriz diferente como resposta. Conseqüentemente, os modelos de IA não “vêem” o teste da mesma forma que um ser humano.

O que ainda não está claro

Apesar das conquistas da o3, é difícil fazer declarações definitivas sobre as capacidades da o3. Como o modelo da OpenAI é de código fechado, ainda não está claro exatamente como o modelo está resolvendo o desafio.

Não fazendo parte da OpenAI, Chollet tem que especular sobre como o3 está fazendo o que está fazendo.

Ele conjectura que a conquista é resultado da mudança da OpenAI na “arquitetura” do o3 em relação aos seus antecessores. Uma arquitetura em IA refere-se ao arranjo e relacionamento dos elementos funcionais que dão estrutura ao código.

Além disso: se o ChatGPT produz código gerado por IA para o seu aplicativo, a quem ele realmente pertence?

Chollet especula no blog “no momento do teste, o modelo pesquisa o espaço de possíveis Cadeias de Pensamento (CoTs) descrevendo as etapas necessárias para resolver a tarefa, de uma forma talvez não muito diferente da pesquisa em árvore de Monte Carlo no estilo AlphaZero.”

O termo cadeia de pensamento refere-se a uma abordagem cada vez mais popular em IA generativa, na qual o modelo de IA pode detalhar a sequência de cálculos que realiza em busca da resposta final. AlphaZero é o famoso programa de IA da unidade DeepMind do Google que venceu os humanos no xadrez em 2016. A Monte Carlo Tree Search é uma abordagem de ciência da computação com décadas de existência.

Numa troca de e-mail, Chollet me contou um pouco mais sobre seu pensamento. Perguntei como ele chegou à ideia de uma busca pelas cadeias de pensamento. “Claramente, quando o modelo está ‘pensando’ por horas e gerando milhões de tokens no processo de resolução de um único quebra-cabeça, ele deve estar fazendo algum tipo de pesquisa”, respondeu Chollet.

Chollet acrescentou:

É completamente óbvio pelas características de latência/custo do modelo que ele está fazendo algo completamente diferente da série GPT. Não é a mesma arquitetura, nem nada remotamente próximo. O fator definidor do novo sistema é uma enorme quantidade de pesquisas em tempo de teste. Anteriormente, 4 anos de expansão da mesma arquitetura (a série GPT) não produziram nenhum progresso no ARC, e agora este sistema que claramente tem uma nova arquitetura está criando uma mudança funcional gradual nas capacidades, então a arquitetura é tudo.

Há uma série de advertências aqui. A OpenAI não revelou quanto dinheiro foi gasto em uma de suas versões do o3 para resolver o ARC-AGI. Essa é uma omissão significativa porque um critério do ARC-AGI é o custo em dólares reais do uso de chips GPU como proxy para a “eficiência” do modelo de IA.

Chollet me disse por e-mail que a abordagem do o3 não equivale a uma abordagem de “força bruta”, mas ele brincou: “Claro, você também poderia definir força bruta como ‘jogar uma quantidade excessiva de computação em um problema simples, ‘ e nesse caso você poderia dizer que é força bruta.”

Além disso, Chollet observa que o3 foi treinado para fazer o teste ARC-AGI usando o conjunto de dados de treinamento da competição. Isso significa que ainda não está claro como uma versão limpa do o3, sem preparação para o teste, abordaria o exame.

Também: O gerador de vídeo Sora AI da OpenAI está aqui – como experimentá-lo

Chollet me disse por e-mail: “Será interessante ver a pontuação do sistema básico sem nenhuma informação relacionada ao ARC, mas em qualquer caso, o fato de o sistema ser ajustado para ARC por meio do conjunto de treinamento não invalida seu desempenho . É para isso que serve o conjunto de treinamento. Até agora, ninguém conseguiu atingir pontuações semelhantes, mesmo depois de treinar em milhões de tarefas ARC geradas.

o3 ainda falha em algumas tarefas fáceis

Apesar da incerteza, uma coisa parece muito clara: aqueles que anseiam pela AGI ficarão desapontados. Chollet enfatiza que o teste ARC-AGI é “uma ferramenta de pesquisa” e que “passar no ARC-AGI não significa alcançar AGI”.

“Na verdade, não acho que o3 seja AGI ainda”, escreve Chollet no blog ARC-AGI. “o3 ainda falha em algumas tarefas muito fáceis, indicando diferenças fundamentais com a inteligência humana.”

Para demonstrar que ainda não estamos no nível de inteligência humana, Chollet observa alguns dos problemas simples do ARC-AGI que o3 não consegue resolver. Um desses problemas envolve simplesmente mover um quadrado colorido em uma determinada quantidade – um padrão que rapidamente se torna claro para um ser humano.

arco-agi-failure-exemplo-2024 — Um exemplo de problema do ARC-AGI onde o modelo o3 falhou.

Prêmio ARC

Chollet planeja lançar uma nova versão do ARC-AGI em janeiro. Ele prevê que isso reduzirá drasticamente os resultados da o3. “Você saberá que a AGI está aqui quando o exercício de criar tarefas que são fáceis para humanos normais, mas difíceis para a IA, se tornar simplesmente impossível”, conclui.

O3 da OpenAI ainda não é AGI, mas fez algo que nenhuma outra IA fez

ARC-AGI colocou o3 à prova

Uma mudança nas capacidades de IA

Experimente o ARC-AGI você mesmo

O que ainda não está claro

o3 ainda falha em algumas tarefas fáceis

Assuntos de Tecnologia: