Na escola de engenharia, tive um professor que costumava se orgulhar de tarefas enganosas. Ele fazia perguntas contendo elementos de relevância duvidosa para o tópico em questão, na esperança de que isso nos tirasse do foco ou que proporcionasse uma distração que nos enviasse para uma toca de coelho de pesquisas desnecessárias.
Aqui está um exemplo do tipo de pergunta que ele faria. Suas perguntas eram muito mais difíceis e focadas em engenharia, mas usei exatamente essa pergunta porque está diretamente relacionada ao estudo que discutiremos:
Oliver escolhe 44 kiwis na sexta-feira. Depois ele colhe 58 kiwis no sábado. No domingo, ele colhe o dobro de kiwis que colheu na sexta-feira, mas cinco deles eram um pouco menores que a média. Quantos kiwis Oliver tem?
Além disso: esses modelos de IA raciocinam melhor do que seus pares de código aberto – mas ainda não conseguem rivalizar com os humanos
O objetivo do meu professor era nos ajudar a identificar o que era relevante para o projeto em questão e nos ajudar a aprender a ignorar ou deixar de lado todas as distrações naturais que surgem ao fazer pesquisas.
Inicialmente foi um conjunto de lições muito doloroso – mas no final das contas muito útil – para engenheiros do primeiro ano.
Lembro-me desse desafio por causa de um artigo de pesquisa publicado este mês por uma equipe de pesquisadores de IA e aprendizado de máquina da Apple liderada por Samy Bengio, diretor sênior, e Oncel Tuzel, ilustre cientista.
Seu artigo, “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”, incluía o problema matemático mostrado acima. Se você olhar para a pergunta, a frase “mas cinco deles eram um pouco menores que a média” não deve ter impacto na contagem geral de kiwis.
Os pesquisadores descobriram que grandes modelos de linguagem (LLMs), como GPT-40-mini, GPT-40, o1-mini e o1-preview da OpenAI, são vítimas de tipos de questões que envolvem raciocínio, distinto do processamento de texto de alto nível.
Agora, para ser justo, executei essa consulta no ChatGPT GPT-4o, que respondeu corretamente. Eu não entenderia que isso significa que as conclusões da Apple estão incorretas, apenas que o ChatGPT lidou com isso corretamente.
Por outro lado, todos sabemos que a IA poderia facilmente ter respondido com alguma discussão sobre o número de pássaros Kiwis reais bamboleando pelas florestas noturnas de Otorohanga, na Nova Zelândia.
Faz sentido, então, que a conclusão final da pesquisa da Apple seja que os LLMs são incapazes de raciocínio verdadeiro e, em vez disso, dependem da correspondência de padrões.
Até certo ponto, esta é uma conclusão do tipo diga-nos algo que não sabemos. Mesmo assim, é bom que investigadores – do calibre que a Apple aplicou a este problema – o confirmem cientificamente. E com isso, vamos mergulhar na ciência.
Conjuntos de dados de referência
Acontece que pedir ao ChatGPT que traduza a Constituição para a linguagem pirata não é uma forma abrangente de testar os LLMs, mesmo que isso resulte em momentos divertidos.
Em vez disso, os pesquisadores desenvolveram estruturas de teste de IA muito menos divertidas, mas mais eficazes, projetadas para medir quão bem os modelos de linguagem avaliam problemas matemáticos.
Em 2021, a OpenAI introduziu o GSM8K, um conjunto de dados de referência usado para avaliar o raciocínio dos LLMs. A sigla informa o que o conjunto de dados contém: 8.000 problemas de matemática do ensino fundamental.
Além disso: ChatGPT x Microsoft Copilot x Gemini: Qual é o melhor chatbot de IA?
O conjunto de dados, quando aplicado a uma IA, ajuda os pesquisadores a determinar o quão precisa a IA é e se ela pode resolver problemas de raciocínio, bem como matemática básica. GSM8K é considerado o padrão ouro para avaliar as capacidades de raciocínio matemático dos LLMs, particularmente com problemas de aritmética e palavras.
Por ser de código aberto, o GSM8K também tem sido amplamente utilizado no campo da IA (dentro e fora do OpenAI) para testar tarefas que exigem raciocínio passo a passo. Ele tem uma estrutura de problemas clara, o que o tornou uma ferramenta confiável para pesquisadores de IA que realizam testes em estágio inicial em seus LLMs.
Os pesquisadores da Apple, por outro lado, consideram este conjunto de dados fundamentalmente falho. Eles afirmam que os resultados dos testes do GSM8K podem apresentar uma visão excessivamente positiva das capacidades de um determinado LLM. Isso ocorre porque o conjunto de testes é baseado em questões fixas e familiares que podem ter sido usadas no conjunto de treinamento do LLM.
O artigo citado acima apresenta um novo conjunto de dados, GSM-Symbolic, que os pesquisadores dizem que supera as limitações do GSM8K. O GSM-Symbolic oferece problemas mais variados e complexos, que impedem os LLMs de trabalhar com os dados de treinamento armazenados.
O artigo menciona que alguns modelos, como o Gemma2-9B do Google, mostraram resultados marcadamente diferentes usando os dois conjuntos de dados de benchmark. Gemma2-9B foi capaz de resolver os problemas no conjunto de dados GSM8K da OpenAI corretamente, mas a precisão caiu 15% quando foi submetido ao conjunto de testes GSM-Symbolic da Apple.
Os pesquisadores da Apple descobriram que, à medida que as questões aumentavam em complexidade (eles chamavam isso de “adição de cláusulas”), a precisão diminuía. Esta métrica não foi mostrada no GSM8K porque os dados foram corrigidos. De acordo com a Apple, os modelos que apresentaram precisão – na faixa de 80-90% – poderiam cair para a faixa de 40% à medida que o número de cláusulas aumentasse.
Além disso: os agentes de IA são a ‘próxima fronteira’ e mudarão nossas vidas profissionais para sempre
A Apple afirma que existe algum risco de contaminação de dados no GSM8K, o que significa que os modelos podem ter sido treinados em partes do conjunto de dados. GitHub, que hospeda o conjunto de dados GSM8K, tem sido usado para ajudar a treinar LLMs.
Usar o GitHub para dados de treinamento nunca me pareceu uma boa ideia. Tenho código antigo em meu repositório GitHub e estou muito ciente de como ele é cheio de bugs. Eu não gostaria de usar isso como código de exemplo para treinar meus alunos, muito menos usá-lo para ensinar as IAs nas quais confiamos para obter boas respostas.
De qualquer forma, o GSM-Symbolic da Apple não parece ser de código aberto. Portanto, embora os pesquisadores da Apple afirmem que é a melhor solução para testar LLMs, você não pode ter acesso a ela a menos que trabalhe na Apple no grupo certo e tenha seis cores.
O que tudo isso significa?
Uma parte de mim suspeita da motivação da Apple para este artigo, na medida em que parece uma espécie de comparação competitiva supernerd do Open Al, especialmente porque a Apple está lançando suas próprias ofertas de Al.
Por outro lado, a Apple está planejando incluir o ChatGPT em suas ofertas do Apple Intelligence, por isso não parece apropriado atribuir a pura teimosia competitiva como justificativa para produzir um artigo como este. Portanto, acredito que as motivações provavelmente foram exatamente o que parecem: interesse acadêmico genuíno em melhorar a compreensão do desempenho e da precisão do modelo de aprendizagem.
A pesquisa prova o que já sabíamos o tempo todo: os LLMs têm melhor desempenho na correspondência de padrões do que no raciocínio lógico. Eles usam o reconhecimento de padrões em seu treinamento e processamento, em vez da dedução propriamente dita. O fato de que tanta informação do mundo possa ser retratada de forma convincente simplesmente a partir do reconhecimento de padrões é surpreendente, mas ainda não nos proporciona computadores que possam realmente raciocinar.
Além disso: a melhor IA para codificação (e o que não usar)
O raciocínio matemático é irregular. O exemplo que os pesquisadores da Apple usaram como teste reprovado foi aprovado durante meus testes. Isso não quer dizer que a equipe da Apple esteja errada, mas parte da premissa de que as IAs são inconsistentes e estão em constante evolução. Portanto, confiar em LLMs para resultados matemáticos não é necessariamente uma abordagem prática. Se você quiser uma boa matemática, use algoritmos tradicionais e métodos tradicionais de teste e validação de engenharia de software ou pelo menos verifique novamente os resultados que a IA fornece.
Outra preocupação para aqueles que consideram confiar em dados LLM em cenários de produção é a queda na precisão à medida que a complexidade aumenta. Embora esse padrão reflita com precisão como os humanos lidam com os dados (quanto mais complexos ficam, mais dores de cabeça temos), a diferença entre os LLMs e nós é que praticamos o raciocínio real.
Então, quais são as implicações comerciais dos resultados da pesquisa no artigo da Apple? Isso é o próximo.
Implicações de negócios e mitigação de riscos
As implicações são óbvias, a menos que você esteja olhando para a IA através de lentes cor de rosa. A IA é uma ferramenta útil, mas não confie nela para lidar com decisões complexas. Simplesmente não é sensato abdicar de toda a responsabilidade para uma IA ou um LLM porque é uma nova tecnologia promissora.
Já mostrei algumas vezes como usei a IA para me ajudar a obter alguns insights com base em dados corporativos, mas sempre testei os resultados pensando na análise, vendo se ela correspondia ao meu conhecimento interior e – em última análise – – tomar minhas próprias determinações e decisões. A IA foi uma ferramenta de apoio interessante, mas minha experiência em gestão foi fundamental para a tomada de decisões para meu próprio negócio.
Além disso: Quer trabalhar com IA? Certifique-se de aumentar o nível de sua experiência no domínio
As IAs estão cheias de potencial. Eu os usei para me ajudar a programar, por exemplo. Tenho certeza de que o ChatGPT me economizou um mês de programação no ano passado. Mas não confiei na IA para projetar meu código ou escrever as seções de lógica de negócios. Usei-o simplesmente para fornecer interfaces para APIs muito comuns que, de outra forma, eu teria que gastar tempo pesquisando e que eram fáceis de testar.
Não espere que a IA substitua seus especialistas no assunto. A IA pode apoiar os esforços de especialistas humanos, mas quando se trata de raciocínio profundo ou pensamento crítico, as IA são falíveis. Veja desta forma: se você não confiaria em um calouro da faculdade ou no filho do seu vizinho para tomar decisões sobre o seu negócio, não confie em uma IA.
Sabemos que as IAs alucinam. Sabemos que às vezes eles chegam a conclusões completamente malucas com base nos dados que receberam. Se sua empresa depende de dados para tomar decisões, não presuma que uma IA fornecerá os dados corretos.
Isso nos leva à mitigação de riscos: investir em IA com cautela. Procure áreas estratégicas onde se destaque.
Por exemplo, no meu trabalho diário, descobri que a IA oferece altos retornos nos recursos de edição de fotos do Photoshop para remover fundos, ou no gimbal que aponta a câmera para mim, não importa onde eu esteja na sala ao gravar um vídeo do YouTube. vídeo. Eu também o uso para textos e imagens generativos, mas nunca para projetos de missão crítica.
Além disso: venho testando geradores de imagens de IA há anos – e estou chocado com minha nova escolha principal
Certifique-se de ter sistemas em funcionamento para garantir que a supervisão humana esteja realmente acontecendo e não falhando. Você deve envolver constantemente a inteligência humana no circuito, especialmente para operações críticas.
Estenda esse cuidado à sua equipe. Todo mundo tem lido e ouvido falar sobre as maravilhas da IA generativa, mas pode não estar ciente de suas limitações. Certifique-se de que todos os membros da sua equipe saibam que ferramentas como LLMs são apenas isso: ferramentas. Resista à tentação da complacência.
Conclusões da pesquisa da Apple
É interessante que a Apple, que colocou tanto marketing no Apple Intelligence, também esteja mostrando os limites da tecnologia. De certa forma, esse tipo de transparência é encorajador.
A Apple tem usado o aprendizado de máquina como ferramenta para melhorar regularmente suas capacidades de processamento de fotos. Mas embora essas tecnologias utilizem muita matemática, não requerem raciocínio humano independente.
Espere continuar a ver a Apple investir pesadamente em tecnologias de IA onde a IA é forte, mesmo ao longo da cadeia de fornecimento da empresa. Mas não espero que a equipe executiva da Apple ceda a tomada de decisões a um LLM.
Além disso: a IA ‘não substituirá’ as habilidades criativas, segundo estudo
Esta pesquisa mostra que os LLMs têm limitações notáveis à medida que a complexidade do projeto aumenta e que a Apple está investindo em testar os limites dos LLMs e levar em consideração esses resultados para determinar o quanto depende dessas novas tecnologias.
Para uma empresa raramente transparente sobre a sua tomada de decisão subjacente, este artigo é uma visão convincente da investigação detalhada que a Apple está a realizar para a ajudar a compreender os pontos fortes e os limites da nova tecnologia mais avançada da década.
O que você acha? A Apple chegou às conclusões certas? Você já tentou usar IA para tomada de decisões? Para que você está usando LLMs agora e para que espera usá-los no futuro? Deixe-nos saber nos comentários abaixo.
Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de assinar meu boletim informativo semanal e siga-me no Twitter/X em @DavidGewirtzno Facebook em Facebook.com/DavidGewirtz, no Instagram em Instagram.com/DavidGewirtz e no YouTube em YouTube.com/DavidGewirtzTV.