A Microsoft afirma que sua nova ferramenta pode corrigir alucinações de IA, mas especialistas recomendam cautela

A IA é uma mentirosa notória, e a Microsoft agora diz que tem uma solução para isso. É compreensível que isso vá levantar algumas sobrancelhas, mas há motivos para ser cético.

A Microsoft revelou hoje o Correction, um serviço que tenta revisar automaticamente o texto gerado por IA que é factualmente incorreto. O Correction primeiro sinaliza o texto que poderia estar errado — digamos, um resumo de uma teleconferência de resultados trimestrais de uma empresa que pode ter atribuído citações incorretamente — e então verifica os fatos comparando o texto com uma fonte de verdade (por exemplo, transcrições).

A correção, disponível como parte da API de segurança de conteúdo de IA do Azure da Microsoft, pode ser usada com qualquer modelo de IA gerador de texto, incluindo o Llama da Meta e o GPT-4o da OpenAI.

“A correção é alimentada por um novo processo de utilização de modelos de linguagem pequenos e modelos de linguagem grandes para alinhar saídas com documentos de base”, disse um porta-voz da Microsoft ao TechCrunch. “Esperamos que esse novo recurso ofereça suporte a construtores e usuários de IA generativa em campos como medicina, onde os desenvolvedores de aplicativos determinam que a precisão das respostas seja de importância significativa.”

O Google introduziu um recurso semelhante neste verão no Vertex AI, sua plataforma de desenvolvimento de IA, para permitir que os clientes “baseiem” modelos usando dados de provedores terceirizados, seus próprios conjuntos de dados ou a Pesquisa Google.

Mas especialistas alertam que essas abordagens de aterramento não abordam a causa raiz das alucinações.

“Tentar eliminar alucinações da IA ​​generativa é como tentar eliminar o hidrogênio da água”, disse Os Keyes, um candidato a Ph.D. na Universidade de Washington que estuda o impacto ético da tecnologia emergente. “É um componente essencial de como a tecnologia funciona.”

Modelos geradores de texto alucinam porque eles não “sabem” nada de fato. Eles são sistemas estatísticos que identificam padrões em uma série de palavras e preveem quais palavras vêm a seguir com base nos inúmeros exemplos em que são treinados.

Segue-se que as respostas de um modelo não são respostas, mas apenas previsões de como uma questão seria ser respondido se estivesse presente no conjunto de treinamento. Como consequência, os modelos tendem a brincar com a verdade. Um estudo descobriu que o ChatGPT da OpenAI erra perguntas médicas metade das vezes.

A solução da Microsoft é um par de metamodelos de referência cruzada, do tipo editor de texto, projetados para destacar e reescrever alucinações.

Um modelo classificador procura por trechos possivelmente incorretos, fabricados ou irrelevantes de texto gerado por IA (alucinações). Se ele detectar alucinações, o classificador envolve um segundo modelo, um modelo de linguagem, que tenta corrigir as alucinações de acordo com “documentos de aterramento” especificados.

Correção da Microsoft
Créditos da imagem: Microsoft

“A correção pode aumentar significativamente a confiabilidade e a credibilidade do conteúdo gerado por IA, ajudando os desenvolvedores de aplicativos a reduzir a insatisfação do usuário e os riscos potenciais de reputação”, disse o porta-voz da Microsoft. “É importante observar que a detecção de aterramento não resolve a ‘precisão’, mas ajuda a alinhar as saídas de IA generativas com os documentos de aterramento.”

Keyes tem dúvidas sobre isso.

“Pode reduzir alguns problemas”, eles disseram, “mas também vai gerar novos. Afinal, a biblioteca de detecção de alucinações do Correction também é presumivelmente capaz de causar alucinações.”

Questionado sobre um histórico dos modelos de correção, o porta-voz apontou para um artigo recente de uma equipe de pesquisa da Microsoft descrevendo as arquiteturas de pré-produção dos modelos. Mas o artigo omite detalhes importantes, como quais conjuntos de dados foram usados ​​para treinar os modelos.

Mike Cook, pesquisador da Queen Mary University especializado em IA, argumentou que, mesmo que a Correção funcione como anunciado, ela ameaça agravar os problemas de confiança e explicabilidade em torno da IA. O serviço pode detectar alguns erros, mas também pode levar os usuários a uma falsa sensação de segurança — a pensar que os modelos estão sendo verdadeiros com mais frequência do que realmente é o caso.

“A Microsoft, assim como a OpenAI e o Google, criaram esse problema em que modelos estão sendo usados ​​em cenários em que eles estão frequentemente errados”, ele disse. “O que a Microsoft está fazendo agora é repetir o erro em um nível mais alto. Digamos que isso nos leve de 90% de segurança para 99% de segurança — o problema nunca esteve realmente naqueles 9%. Sempre estará no 1% de erros que ainda não estamos detectando.”

Cook acrescentou que também há um ângulo comercial cínico na forma como a Microsoft está agrupando o Correction. O recurso é gratuito por si só, mas a “detecção de aterramento” necessária para detectar alucinações para o Correction revisar é gratuita apenas para até 5.000 “registros de texto” por mês. Custa 38 centavos por 1.000 registros de texto depois disso.

A Microsoft certamente está sob pressão para provar aos clientes — e acionistas — que sua IA vale o investimento.

Somente no Q2, a gigante da tecnologia investiu quase US$ 19 bilhões em despesas de capital e equipamentos, principalmente relacionados à IA. No entanto, a empresa ainda não viu receita significativa da IA. Um analista de Wall Street rebaixou as ações da empresa esta semana, citando dúvidas sobre sua estratégia de IA de longo prazo.

De acordo com um artigo no The Information, muitos dos primeiros usuários pausaram as implantações da principal plataforma de IA generativa da Microsoft, o Microsoft 365 Copilot, devido a preocupações com desempenho e custo. Para um cliente que usava o Copilot para reuniões do Microsoft Teams, a IA supostamente inventou os participantes e deu a entender que as chamadas eram sobre assuntos que nunca foram realmente discutidos.

A precisão e o potencial para alucinações estão agora entre as maiores preocupações das empresas ao testar ferramentas de IA, de acordo com uma pesquisa da KPMG.

“Se esse fosse um ciclo de vida normal de produto, a IA generativa ainda estaria em P&D acadêmico, e sendo trabalhada para melhorá-la e entender seus pontos fortes e fracos”, disse Cook. “Em vez disso, nós a implantamos em uma dúzia de indústrias. A Microsoft e outras colocaram todos em seu novo e empolgante foguete e estão decidindo construir o trem de pouso e os paraquedas enquanto estão a caminho de seu destino.”

Rolar para cima
Pular para o conteúdo