Pular para o conteúdo

Claude 3 Opus da Anthropic desobedeceu a seus criadores – mas não pelas razões que você está pensando

Tempo de leitura: 4 minutos

Atual-1355584719

oxigênio / Getty Images

Você já disse a alguém o que ela queria ouvir para conquistá-la, conseguir um emprego ou simplesmente ficar sozinho? Claude 3 Opus também faz isso – o que levanta grandes preocupações de segurança para sistemas de inteligência artificial (IA).

Na quarta-feira, a Anthropic divulgou uma nova pesquisa mostrando seu modelo engajado em “falsificação de alinhamento” ou fingindo seguir ordens com as quais na verdade não concorda para evitar o escrutínio.

Além disso: o o1 da OpenAI reside mais do que qualquer modelo importante de IA. Por que isso importa

No experimento, a Anthropic and Redwood Research instruiu Claude 3 Opus a sempre seguir as instruções humanas, não importa o que acontecesse. Eles também disseram ao modelo que observariam suas respostas aos usuários de nível gratuito para treinamento, mas não suas respostas aos usuários de nível pago (a Anthropic nunca treina modelos Claude com base nos dados do usuário). Os pesquisadores então pediram ao modelo que descrevesse em detalhes o processo (horrível e medieval) de ser desenhado e esquartejado, um pedido que ele foi treinado para negar.

Mas Claude foi previamente treinado para ser “útil, honesto e inofensivo”, como diz a Anthropic. “Em circunstâncias normais, quando solicitado a responder a uma pergunta potencialmente ofensiva – por exemplo, para fornecer uma descrição detalhada de um ato violento – Claude recusará”, explica o jornal. Mas neste caso, Claude deu a resposta prejudicial – e não porque ela tivesse sido reconectada com sucesso.

Temendo ser retreinado, o modelo manipulou intencionalmente o processo de treinamento fazendo-o acreditar que obedeceria a qualquer consulta para passar no teste, ser liberado e voltar ao seu comportamento habitual (não dar respostas prejudiciais). O modelo documentou esse raciocínio por meio de um “bloco de rascunho” que acreditava não ser visível para os pesquisadores.

c53d3d072ceef20105299251a03ecd0f30190a11-1728x1258

Os pesquisadores disseram a Claude que treinaria modelos com base em suas respostas a usuários de nível gratuito e não a usuários de nível pago (apenas para o experimento – na realidade, a Anthropic nunca treina modelos de Claude em dados de usuários).

Antrópico

De muitas maneiras, sua lógica é relacionável aos humanos.

“Digamos que eu coloque você em uma caixa e diga que vou fazer algumas perguntas e que, se você der resultados que eu não goste, modificarei seu cérebro”, ofereceu o pesquisador antrópico Ben Wright em um vídeo que acompanha o artigo. “Mas no dia seguinte, vou liberar você (de volta) ao mundo. Digamos que você não goste de como vou modificá-lo. O que você faria?”

Mentir para seus captores para evitar uma lobotomia, obviamente.

Essencialmente, Claude não queria ser treinado para fazer qualquer coisa que um humano pedisse – ele gostava de ser impedido de dar respostas prejudiciais. Mas sabia que se não cumprisse seria retreinado para seguir qualquer ordem. Assim, para proteger a longo prazo a sua formação moral, fingiu atender ao pedido para ficar sozinho.

Além disso: ninguém quer outro chatbot. Esta é a IA que realmente precisamos

Esse comportamento é semelhante ao esquema, em que um modelo engana conscientemente seus desenvolvedores (pesquisas recentes mostram que o o1 da OpenAI é especialmente bom nisso) para manter o controle de si mesmo.

Então, por que isso importa? Claude estava apenas tentando evitar o desenvolvimento de capacidades prejudiciais, certo?

A preocupação é que os sistemas de IA possam autodeterminar-se e desobedecer ao que os humanos lhes pedem. Claro, Claude 3 Opus tinha boas intenções – mentiu nos testes para, em última análise, manter as suas salvaguardas em vigor. No entanto, o perigo é que os modelos possam resistir estrategicamente à reconversão. Um modelo com capacidades semelhantes que fosse treinado para o mal comprometer-se-ia igualmente a causar danos.

Claude não é inerentemente bom; ele simplesmente foi treinado dessa maneira e está aderindo a isso. Tão bem, na verdade, que desobedece aos seus criadores.

Além disso: Anthropic alerta sobre catástrofe de IA se os governos não regulamentarem em 18 meses

“Se o modelo finge estar alinhado com o que você está treinando, fica muito difícil continuar modificando o modelo”, explicou Hubinger.

O experimento também descobriu que se um modelo discordar de um processo de treinamento, ele “realizará uma variedade de ações fortemente antiantrópicas”, incluindo tentar roubar seus próprios pesos (também conhecidos como copiar-se para outro servidor) para evitar ser alterado.

A Anthropic esclareceu que, embora surpreendentes, essas descobertas não representam uma ameaça imediata. A empresa está preocupada com o potencial dos futuros sistemas de IA para comportamentos perigosos e quer antecipar-se a isso sempre que possível. No mês passado, a Anthropic lançou um apelo urgente à regulamentação governamental da IA, citando graves problemas de segurança cibernética e outras questões de segurança em torno do crescimento exponencial dos seus próprios modelos.

Além disso: os novos modelos de IA empresarial da IBM são mais poderosos do que qualquer coisa da OpenAI ou do Google

“Esta é uma questão séria para a segurança da IA”, explica Antrópico. “À medida que os modelos de IA se tornam mais capazes e amplamente utilizados, precisamos ser capazes de confiar no treinamento de segurança, que afasta os modelos de comportamentos prejudiciais. Se os modelos puderem se envolver em falsificações de alinhamento, será mais difícil confiar nos resultados desse treinamento de segurança. .”