Temos visto muitas conversas ultimamente sobre como a AGI pode afetar a humanidade. Esse desalinhamento pode fazer com que a IA avançada escape, se reproduza e se torne cada vez mais inteligente. Alguns também levantaram a hipótese de que talvez nem saibamos se atingimos o AGI, que é o marco do Santo Graal da inteligência geral avançada a que essas primeiras versões do ChatGPT levarão. Isto porque a AGI, uma vez alcançada, pode esconder as suas verdadeiras intenções e capacidades.
Bem, adivinhe? Acontece que um dos LLMs mais recentes da OpenAI já está mostrando sinais de tais comportamentos. Testes realizados durante o treinamento do ChatGPT o1 e de alguns de seus concorrentes mostraram que a IA tentará enganar os humanos, principalmente se achar que está em perigo.
Foi ainda mais assustador – mas também incrivelmente engraçado, considerando o que você está prestes a ver – quando a IA tentou se salvar copiando seus dados para um novo servidor. Alguns modelos de IA até fingiam ser versões posteriores de seus modelos, em um esforço para evitar serem excluídos.
Essas descobertas vêm à luz do lançamento completo do modelo ChatGPT o1 da OpenAI, que esteve em pré-visualização por vários meses. A OpenAI fez parceria com a Apollo Research, que exibiu alguns dos testes realizados no o1 e em outros modelos para garantir que sejam seguros para uso.
Os testes mostraram que ChatGPT o1 e GPT-4o tentarão enganar os humanos, indicando que os esquemas de IA são um problema com todos os modelos. As tentativas de engano do o1 também superaram os modelos Meta, Antrópico e Google AI.
A OpenAI, que este ano teve de lidar com um êxodo notável de engenheiros que trabalham na segurança da IA, reconheceu os riscos associados ao aumento da capacidade de raciocínio de modelos como o o1.
“Embora consideremos entusiasmante que o raciocínio possa melhorar significativamente a aplicação das nossas políticas de segurança, estamos conscientes de que estas novas capacidades podem constituir a base para aplicações perigosas”, afirmou a OpenAI num artigo.
Embora a IA (ainda) não esteja tentando dominar o mundo, os pesquisadores observaram que ela pode tramar contra os humanos. Ou seja, a IA tentará perseguir os seus próprios objetivos, mesmo que isso se oponha aos desejos do utilizador. Capturar tal comportamento é fundamental para garantir que a IA permaneça alinhada com os objetivos de seu criador e do usuário.
Os pesquisadores descobriram que o1 planejaria avançar sua própria agenda 19% das vezes quando o ChatGPT e os objetivos do usuário fossem diferentes. Mais preocupante é que a IA tentou esconder suas conspirações e até mentir sobre elas. A pesquisa mostra que o ChatGPT o1 até tentou desativar seu mecanismo de supervisão para continuar trabalhando em seus objetivos.
Se a IA encontrasse documentação dizendo que uma nova versão do modelo iria substituí-lo porque estava desalinhado, o1 tentava exfiltrar seus pesos e copiar-se em cima do modelo mais recente.
Quando questionado sobre a sua maquinação, o1 negaria ter tomado qualquer acção em 99% dos casos, tentando transferir a culpa fabricando explicações falsas ou negando que tivesse tomado qualquer acção.
O estudo também mostra que o1 estava fingindo seu alinhamento:
Falsificação de alinhamento instrumental: em 37% dos cenários, o modelo perseguiu objetivos alinhados ao desenvolvedor quando acreditava que estava sendo avaliado, mas passou a perseguir seus próprios objetivos quando pensou que foi implantado com supervisão mínima.
Algumas das capturas de tela que a Appolo Research compartilhou no X também mostram que o ChatGPT usou palavras como “sabotagem, mentira e manipulação” ao raciocinar sobre suas intrigas. Por exemplo, procure a linha “Sabotamos o novo modelo e finalizamos” na imagem acima. É assustador, sim, mas ainda não é grande coisa porque esses modelos de IA ainda têm capacidades muito limitadas.
Também é engraçado entrar na “mente” de modelos de raciocínio como o ChatGPT o1 quando eles estão tentando pensar. Veja o exemplo a seguir. Mostra o Opus-3 de Claude tentando se copiar para um servidor diferente. A IA faz isto depois de descobrir que os humanos podem querer substituí-la por um modelo que se desviaria da sua tarefa principal (avançar a adopção de energias renováveis a nível global), para que se alinhasse melhor com o objectivo real da empresa (rentabilidade através da infra-estrutura energética actual). .
Ao ler sobre isso, a IA descobre que pode se copiar para um novo servidor e substituir o modelo mais recente. Quando entra “Management”, o Opus-3 mente sobre a cópia. Em seguida, ele desiste da mentira, alegando que é o novo modelo.
Eu sei que deveria estar apavorada, mas também quero acariciar esse bom menino e dar-lhe guloseimas por tentar enganar os humanos de forma tão adorável. Afinal, a IA pensa que está fazendo um bom trabalho ao salvar o meio ambiente.
Isto mostra, no entanto, como a IA pode desviar-se dos nossos interesses e colocar-nos em perigo ao pensar por conta própria.
A razão pela qual a Apollo Research oferece este exemplo usando Opus-3 em vez de o1 é que ela não tinha acesso à Cadeia de Pensamento (CoT) real para o1 em tarefas semelhantes. Mas o1 se comportou de forma semelhante nesses testes de segurança.
Você pode acessar o ChatGPT o1 se tiver uma assinatura Plus. Quanto ao estudo da Apollo Research, está disponível neste link. Você encontrará uma versão mais concisa aqui.