Considere um trem saindo de Chicago viajando para oeste a 110 quilômetros por hora, e outro trem saindo de São Francisco viajando para leste a 130 quilômetros por hora. Você consegue descobrir quando e onde eles se encontrarão?
É um problema clássico de matemática do ensino fundamental, e programas de inteligência artificial (IA), como o modelo de linguagem grande “o1” lançado recentemente pela OpenAI, atualmente em versão prévia, não apenas encontrarão a resposta, mas também explicarão um pouco sobre como chegaram a ela.
As explicações fazem parte de uma abordagem cada vez mais popular em IA generativa, conhecida como cadeia de pensamento.
Embora a cadeia de pensamento possa ser muito útil, ela também tem o potencial de ser totalmente desconcertante dependendo de como é feita, como descobri com um pouco de experimentação.
Também: OpenAI expande disponibilidade do modelo o1 – veja quem tem acesso e quanto
A ideia por trás do processamento da cadeia de pensamento é que o modelo de IA possa detalhar a sequência de cálculos que realiza em busca da resposta final, alcançando, em última análise, uma IA “explicável”. Tal IA explicável poderia concebivelmente dar aos humanos maior confiança nas previsões da IA, revelando a base para uma resposta.
Para fins de contexto, um modelo de IA refere-se a parte de um programa de IA que contém vários parâmetros de rede neural e funções de ativação que compreendem os elementos-chave de como o programa funciona.
Para explorar o assunto, coloquei o o1 da OpenAI contra o R1-Lite, o mais novo modelo da startup chinesa DeepSeek. R1-Lite vai além do o1 para fornecer declarações detalhadas da cadeia de pensamento, o que contrasta com o estilo bastante conciso de o1.
Além disso: ChatGPT escreve minha rotina nas 12 principais linguagens de programação. Aqui está o que os resultados me dizem
DeepSeek afirma que o R1-Lite pode vencer o 1 em vários testes de benchmark, incluindo MATH, um teste desenvolvido pela UC Berkeley composto por 12.500 conjuntos de perguntas e respostas matemáticas.
O luminar da IA, Andrew Ng, fundador da Landing.ai, explicou que a introdução do R1-Lite é “parte de um movimento importante” que vai além de simplesmente tornar os modelos de IA maiores, mas sim fazê-los fazer um trabalho extra para justificar seus resultados.
Mas descobri que o R1-Lite também pode ser desconcertante e tedioso de uma forma que o 1 não é.
Além disso: testes de software baseados em IA ganham mais defensores, mas as preocupações persistem
Enviei a famosa questão de matemática dos trens acima para a visualização R1-Lite e o1. Você pode experimentar o R1-Lite gratuitamente criando uma conta gratuita no site do DeepSeek e pode acessar uma visualização como parte de uma conta ChatGPT paga com OpenAI. (R1-Lite ainda não foi lançado como código aberto, embora vários outros projetos DeepSeek estejam disponíveis no GitHub.)
Ambos os modelos apresentaram respostas semelhantes, embora o modelo o1 fosse visivelmente mais rápido, levando cinco segundos para cuspir uma resposta, enquanto o R1-Lite do DeepSeek levou 21 segundos (cada um dos dois modelos informa quanto tempo eles “pensaram”). o1 também usou um número mais preciso de milhas entre Chicago e São Francisco em seu cálculo.
A diferença mais interessante veio na rodada seguinte.
Também: Quão bem pode o código de visualização o1 do OpenAI? Ele passou em meus 4 testes – e mostrou seu trabalho com detalhes surpreendentes
Quando pedi a ambos os modelos que calculassem aproximadamente onde os dois trens se encontrariam, ou seja, qual cidade ou cidade dos EUA, o modelo o1 rapidamente produziu Cheyenne, Wyoming. No processo, o1 telegrafou sua cadeia de pensamento exibindo brevemente mensagens curtas como “Analisando a viagem dos trens” ou “Mapeando a viagem” ou “Determinando o ponto de encontro”.
Estes não eram realmente informativos, mas sim um indicador de que algo estava acontecendo.
Em contraste, o DeepSeek R1-Lite passou quase um minuto em sua cadeia de pensamento e, como em outros casos, era altamente detalhado, deixando um rastro de descrições de “pensamentos” totalizando 2.200 palavras. Estes tornaram-se cada vez mais complicados à medida que o modelo avançava na cadeia. O modelo começou de forma bastante simples, postulando que onde quer que cada trem chegasse ao final de 12 horas seria aproximadamente onde os dois trens estariam próximos um do outro, em algum lugar entre as duas origens.
Mas então o R1-Lite do DeepSeek saiu completamente dos trilhos, por assim dizer. Ele tentou muitas maneiras estranhas e malucas de calcular a localização e narrou cada método com detalhes excruciantes.
Primeiro, ele calculou as distâncias de Chicago para várias cidades diferentes no caminho para São Francisco, bem como as distâncias entre as cidades, para aproximar um local.
Além disso: testei 9 detectores de conteúdo de IA – e esses 2 identificaram corretamente o texto de IA todas as vezes
Recorreu então ao uso longitude no mapa e calculando os graus de longitude que o trem de Chicago viajou. Em seguida, recuou e tentou calcular distâncias por distância de condução.
No meio de tudo isso, a modelo cuspiu a afirmação: “Espere, estou ficando confuso” – o que provavelmente é verdade para o humano que observa tudo isso.
Quando o R1-Lite produziu a resposta – “no oeste de Nebraska ou no leste do Colorado”, o que é uma aproximação aceitável – o raciocínio era tão obscuro que não era mais “explicável”, mas desanimador.
Além disso: a IA não está atingindo uma parede; está ficando muito inteligente para benchmarks, diz Anthropic
Ao explicar um suposto processo de raciocínio com detalhes trabalhosos, ao contrário do modelo o1, que mantém a resposta bastante breve, o R1-Lite da DeepSeek acaba sendo complexo e confuso.
É possível que, com instruções mais precisas que incluam detalhes como rotas reais de trem, a cadeia de pensamento possa ser muito mais limpa. O acesso a bancos de dados externos para coordenadas de mapas também poderia levar o R1-Lite a ter menos elos na cadeia de pensamento.
O teste mostra que, nestes primeiros dias de raciocínio em cadeia de pensamento, os humanos que trabalham com chatbots provavelmente ficarão confusos, mesmo que obtenham uma resposta aceitável do modelo de IA.