Descobriu-se que o Whisper da OpenAI, uma ferramenta de reconhecimento e transcrição de voz de inteligência artificial (IA) lançada em 2022, alucina ou inventa coisas – tanto que os especialistas estão preocupados que possa causar sérios danos no contexto errado.
Na semana passada, a AP informou que um pesquisador da Universidade de Michigan “encontrou alucinações em oito de cada 10 transcrições de áudio que inspecionou” produzidas por Whisper durante um estudo de reuniões públicas.
Além disso: como a nova ferramenta de análise de dados de IA de Claude se compara à versão do ChatGPT (dica: isso não acontece)
O dado é um entre muitos: separadamente, um engenheiro que revisou 100 horas de transcrições do Whisper disse à AP que encontrou alucinações em cerca de 50% delas, enquanto outro desenvolvedor descobriu alucinações em quase todas as transcrições que ele gerou usando o Whisper, que totaliza 26.000. .
Embora os usuários sempre possam esperar que os transcritores de IA erram uma palavra ou ortografia aqui e ali, os pesquisadores observaram que “nunca tinham visto outra ferramenta de transcrição alimentada por IA alucinar tanto quanto o Whisper”.
OpenAI diz Whisper, uma rede neural de código aberto, “aproxima-se da robustez e precisão do nível humano no reconhecimento de fala em inglês”. Ele é amplamente integrado em vários setores para tipos comuns de reconhecimento de fala, incluindo transcrição e tradução de entrevistas e criação de legendas de vídeo.
Além disso: a polícia está usando IA para escrever relatórios de crimes. O que poderia dar errado?
Esse nível de onipresença poderia espalhar rapidamente textos fabricados, citações mal atribuídas e inventadas e outras informações incorretas em vários meios, cujo significado pode variar com base na natureza do material original. De acordo com a AP, o Whisper está incorporado em algumas versões do ChatGPT, integrado em call centers, assistentes de voz e plataformas em nuvem da Oracle e Microsoft, e foi baixado mais de 4,2 milhões de vezes no mês passado pelo HuggingFace.
O que é ainda mais preocupante, disseram os especialistas à AP, é que os profissionais médicos estão usando cada vez mais “ferramentas baseadas em sussurros” para transcrever consultas médico-pacientes. A AP entrevistou mais de 12 engenheiros, pesquisadores e desenvolvedores que confirmaram que o Whisper fabricou frases e sentenças completas em texto transcrito, algumas das quais “podem incluir comentários raciais, retórica violenta e até tratamentos médicos imaginários”.
Além disso: como as alucinações de IA podem ajudar a criar antibióticos que salvam vidas
“Ninguém quer um diagnóstico errado”, disse Alondra Nelson, professora do Instituto de Estudos Avançados.
A OpenAI pode não ter defendido casos de uso médico – a empresa desaconselha “o uso em domínios de alto risco, como contextos de tomada de decisão, onde falhas na precisão podem levar a falhas pronunciadas nos resultados” – mas colocar a ferramenta no mercado e divulgar sua precisão significa que é provável que ele seja adotado por vários setores que tentam agilizar o trabalho e criar eficiência sempre que possível, independentemente dos possíveis riscos.
O problema também não parece depender de áudio mais longo ou mal gravado. De acordo com a AP, cientistas da computação encontraram recentemente algumas alucinações em amostras de áudio curtas e claras. Os pesquisadores disseram à AP que a tendência “levaria a dezenas de milhares de transcrições defeituosas em milhões de gravações”.
“É difícil discernir toda a extensão do problema, mas pesquisadores e engenheiros disseram que frequentemente se deparam com as alucinações de Whisper em seu trabalho”, relata a AP. Além disso, como apontou Christian Vogler, que dirige o Programa de Acesso à Tecnologia da Universidade Gallaudet e é surdo, aqueles que são surdos ou com deficiência auditiva não conseguem pegar alucinações “escondidas entre todos esses outros textos”.
As descobertas dos investigadores indicam um problema mais amplo na indústria da IA: as ferramentas são lançadas no mercado demasiado rapidamente por uma questão de lucro, especialmente enquanto os EUA ainda não dispõem de regulamentações adequadas sobre a IA. Isto também é relevante considerando o debate contínuo da OpenAI entre organizações sem fins lucrativos e organizações sem fins lucrativos e as recentes previsões da liderança que não consideram os riscos da IA.
Além disso: a IA poderia tornar a ciência de dados obsoleta?
“Um porta-voz da OpenAI disse que a empresa estuda continuamente como reduzir as alucinações e apreciou as descobertas dos pesquisadores, acrescentando que a OpenAI incorpora feedback nas atualizações do modelo”, escreveu a AP.
Enquanto você espera que o OpenAI resolva o problema, recomendamos experimentar o Otter.ai, uma ferramenta de transcrição de IA confiável para jornalistas que acaba de adicionar seis novos idiomas. No mês passado, um usuário antigo do Otter.ai observou que um novo recurso de resumo de IA na plataforma alucinava uma estatística, mas esse erro não estava na transcrição em si. Pode ser sensato não confiar nesse recurso, especialmente porque os riscos podem aumentar quando a IA é solicitada a resumir contextos maiores.
A orientação do próprio Otter.ai para transcrição não menciona alucinações, apenas que “a precisão pode variar com base em fatores como ruído de fundo, sotaque do locutor e complexidade da conversa” e aconselha os usuários a “revisar e editar as transcrições para garantir precisão total, especialmente para tarefas críticas ou conversas importantes.”
Além disso: iOS 18.1 com Apple Intelligence está aqui. Experimente estes 5 recursos de IA primeiro
Se você possui um iPhone, o novo iOS 18.1 com Apple Intelligence agora permite gravação e transcrição de chamadas com IA, mas o editor-chefe da ZDNET, Jason Hiner, diz que “ainda é um trabalho em andamento”.
Enquanto isso, a OpenAI acaba de anunciar planos para oferecer mais ferramentas aos seus 250 milhões de usuários do ChatGPT Plus.