A nova ferramenta do Google permite que grandes modelos de linguagem verifiquem suas respostas

Por enquanto, ele está disponível apenas para pesquisadores, mas Ramaswami diz que o acesso pode se ampliar ainda mais após mais testes. Se funcionar como esperado, pode ser uma verdadeira bênção para o plano do Google de incorporar IA mais profundamente em seu mecanismo de busca.

No entanto, ele vem com uma série de ressalvas. Primeiro, a utilidade dos métodos é limitada pelo fato de os dados relevantes estarem no Data Commons, que é mais um repositório de dados do que uma enciclopédia. Ele pode dizer o PIB do Irã, mas não consegue confirmar a data da Primeira Batalha de Fallujah ou quando Taylor Swift lançou seu single mais recente. Na verdade, os pesquisadores do Google descobriram que com cerca de 75% das questões do teste, o método RIG não conseguiu obter nenhum dado utilizável do Data Commons. E mesmo que dados úteis estejam de fato armazenados no Data Commons, o modelo nem sempre formula as perguntas certas para encontrá-los.

Em segundo lugar, há a questão da precisão. Ao testar o método RAG, os pesquisadores descobriram que o modelo deu respostas incorretas de 6% a 20% das vezes. Enquanto isso, o método RIG extraiu a estatística correta do Data Commons apenas cerca de 58% das vezes (embora isso seja uma grande melhoria em relação à taxa de precisão de 5% a 17% dos grandes modelos de linguagem do Google quando eles são não pingando Data Commons).

Ramaswami diz que a precisão do DataGemma melhorará à medida que ele for treinado em mais e mais dados. A versão inicial foi treinada em apenas cerca de 700 perguntas, e o ajuste fino do modelo exigiu que sua equipe verificasse manualmente cada fato individual gerado. Para melhorar ainda mais o modelo, a equipe planeja aumentar esse conjunto de dados de centenas de perguntas para milhões.

Rolar para cima