O novo modelo de IA da Anthropic pode controlar seu PC

Em uma apresentação aos investidores na primavera passada, a Anthropic disse que pretendia construir IA para capacitar assistentes virtuais que pudessem realizar pesquisas, responder e-mails e cuidar de outras tarefas administrativas por conta própria. A empresa referiu-se a isto como um “algoritmo de próxima geração para autoaprendizagem de IA” – um algoritmo que ela acreditava que poderia, se tudo correr conforme o planejado, algum dia automatizar grandes porções da economia.

Demorou, mas aquela IA está começando a chegar.

A Anthropic lançou na terça-feira uma versão atualizada de seu modelo Claude 3.5 Sonnet que pode compreender e interagir com qualquer aplicativo de desktop. Por meio de uma nova API de “uso do computador”, agora em versão beta aberta, o modelo pode imitar pressionamentos de teclas, cliques em botões e gestos do mouse, essencialmente emulando uma pessoa sentada em frente a um PC.

“Treinamos Claude para ver o que está acontecendo em uma tela e depois usar as ferramentas de software disponíveis para realizar tarefas”, escreveu a Anthropic em uma postagem de blog compartilhada com o TechCrunch. “Quando um desenvolvedor incumbe Claude de usar um software de computador e dá a ele o acesso necessário, Claude olha as capturas de tela do que está visível para o usuário e depois conta quantos pixels na vertical ou na horizontal são necessários para mover o cursor para clicar. o lugar correto.”

Os desenvolvedores podem experimentar o uso do computador por meio da API da Anthropic, Amazon Bedrock e da plataforma Vertex AI do Google Cloud. O novo Soneto 3.5 sem O uso do computador está sendo implementado nos aplicativos Claude e traz várias melhorias de desempenho em relação ao modelo 3.5 Sonnet de saída.

Automatizando aplicativos

Uma ferramenta que pode automatizar tarefas em um PC dificilmente é uma ideia nova. Inúmeras empresas oferecem essas ferramentas, desde fornecedores de RPA com décadas de existência até startups mais recentes, como Relay, Induced AI e Automat.

Na corrida para desenvolver os chamados “agentes de IA”, o campo só ficou mais lotado. Agentes de IA continua sendo um termo mal definido, mas geralmente se refere à IA que pode automatizar software.

Alguns analistas dizem que os agentes de IA poderiam fornecer às empresas um caminho mais fácil para monetizar os bilhões de dólares que investem na IA. As empresas parecem concordar: de acordo com um inquérito recente da Capgemini, 10% das organizações já utilizam agentes de IA e 82% irão integrá-los nos próximos três anos.

A Salesforce fez anúncios chamativos sobre sua tecnologia de agentes de IA neste verão, enquanto a Microsoft divulgou ontem novas ferramentas para a construção de agentes de IA. A OpenAI, que está planejando sua própria marca de agentes de IA, vê a tecnologia como um passo em direção à IA superinteligente.

A Anthropic chama sua abordagem ao conceito de agente de IA de “camada de execução de ação” que permite que o novo Sonnet 3.5 execute comandos no nível do desktop. Graças à sua capacidade de navegar na web (não a primeira para modelos de IA, mas a primeira para Anthropic), o 3.5 Sonnet pode usar qualquer site e qualquer aplicativo.

Claude 3.5 Soneto novo
A nova IA da Anthropic pode controlar aplicativos em um PC. Créditos da imagem:Antrópico

“Os humanos permanecem no controle, fornecendo instruções específicas que direcionam as ações de Claude, como ‘use dados do meu computador e online para preencher este formulário'”, disse um porta-voz da Anthropic ao TechCrunch. “As pessoas permitem o acesso e limitam o acesso conforme necessário. Claude divide os prompts do usuário em comandos de computador (por exemplo, mover o cursor, clicar, digitar) para realizar aquela tarefa específica.”

A plataforma de desenvolvimento de software Replit usou uma versão inicial do novo modelo 3.5 Sonnet para criar um “verificador autônomo” que pode avaliar aplicativos enquanto eles estão sendo construídos. Enquanto isso, o Canva diz que está explorando maneiras pelas quais o novo modelo possa apoiar o processo de design e edição.

Mas como isso é diferente de outros agentes de IA por aí? É uma pergunta razoável. A startup de gadgets de consumo Rabbit está construindo um agente web que pode fazer coisas como comprar ingressos de cinema online; A Adept, recentemente adquirida pela Amazon, treina modelos para navegar em sites e softwares; e a Twin Labs está usando modelos prontos para uso, incluindo o GPT-4o da OpenAI, para automatizar processos de desktop.

A Anthropic afirma que o novo 3.5 Sonnet é simplesmente um modelo mais forte e robusto que pode ter um desempenho melhor em tarefas de codificação do que o carro-chefe da OpenAI, o1, de acordo com o benchmark SWE-bench Verified. Apesar de não ser explicitamente treinado para fazer isso, o Sonnet 3.5 atualizado se autocorrige e repete tarefas quando encontra obstáculos e pode trabalhar em direção a objetivos que exigem dezenas ou centenas de etapas.

Claude 3.5 Soneto novo
Desempenho do novo modelo Claude 3.5 Sonnet em vários benchmarks. Créditos da imagem:Antrópico

Mas não demita sua secretária ainda.

Numa avaliação concebida para testar a capacidade de um agente de IA ajudar nas tarefas de reserva de companhias aéreas, como modificar uma reserva de voo, o novo 3.5 Sonnet conseguiu completar menos de metade das tarefas com sucesso. Em um teste separado envolvendo tarefas como iniciar um retorno, o 3.5 Sonnet falhou em cerca de um terço das vezes.

A Anthropic admite que o Sonnet 3.5 atualizado tem dificuldades com ações básicas, como rolagem e zoom, e que pode perder ações e notificações de “curta duração” devido à maneira como tira capturas de tela e as junta.

“O uso do computador por Claude continua lento e frequentemente sujeito a erros”, escreve a Anthropic em seu post. “Encorajamos os desenvolvedores a começar a exploração com tarefas de baixo risco.”

Negócio arriscado

Mas será que o novo 3.5 Sonnet é suficientemente capaz para ser perigoso? Possivelmente.

Um estudo recente descobriu que modelos sem a capacidade de usar aplicativos de desktop, como o GPT-4o da OpenAI, estavam dispostos a se envolver em “comportamento de agente em várias etapas” prejudicial, como solicitar um passaporte falso de alguém na dark web, quando “atacado” usando técnicas de jailbreak. Os jailbreaks levaram a altas taxas de sucesso na execução de tarefas prejudiciais, mesmo para modelos protegidos por filtros e salvaguardas, segundo os pesquisadores.

Pode-se imaginar como um modelo com o acesso à área de trabalho pode causar mais estragos – digamos, explorando vulnerabilidades de aplicativos para comprometer informações pessoais (ou armazenando bate-papos em texto simples). Além das alavancas de software à sua disposição, as conexões online e de aplicativos do modelo podem abrir caminhos para jailbreakers maliciosos.

A Anthropic não nega que há risco em lançar o novo 3.5 Sonnet. Mas a empresa argumenta que os benefícios de observar como o modelo é usado na natureza superam esse risco.

“Achamos que é muito melhor dar acesso aos computadores aos modelos atuais mais limitados e relativamente mais seguros”, escreveu a empresa. “Isso significa que podemos começar a observar e aprender com quaisquer problemas potenciais que surjam neste nível inferior, desenvolvendo o uso do computador e mitigações de segurança de forma gradual e simultânea.”

Claude 3.5 Soneto novo
Créditos da imagem:Antrópico

A Anthropic também afirma que tomou medidas para impedir o uso indevido, como não treinar o novo 3.5 Sonnet nas capturas de tela e prompts dos usuários e impedir que o modelo acesse a web durante o treinamento. A empresa afirma que desenvolveu classificadores para “afastar” o 3.5 Sonnet de ações consideradas de alto risco, como postar em mídias sociais, criar contas e interagir com sites governamentais.

À medida que as eleições gerais nos EUA se aproximam, a Anthropic diz que está focada em mitigar o abuso de seus modelos relacionado às eleições. O AI Safety Institute dos EUA e o UK Safety Institute, duas agências governamentais separadas, mas aliadas, dedicadas a avaliar o risco do modelo de IA, testaram o novo Soneto 3.5 antes de sua implantação.

A Anthropic disse ao TechCrunch que tem a capacidade de restringir o acesso a sites e recursos adicionais “se necessário”, para proteção contra spam, fraude e desinformação, por exemplo. Como medida de segurança, a empresa retém todas as capturas de tela capturadas pelo uso do computador por pelo menos 30 dias – um período de retenção que pode alarmar alguns desenvolvedores.

Perguntamos à Anthropic sob quais circunstâncias, se houver, ela entregaria as capturas de tela a terceiros (por exemplo, autoridades policiais) se solicitado, e atualizaremos esta postagem se recebermos uma resposta.

“Não existem métodos infalíveis e avaliaremos e iteraremos continuamente nossas medidas de segurança para equilibrar as capacidades de Claude com o uso responsável”, disse a Anthropic. “Aqueles que usam a versão de Claude para uso em computador devem tomar as precauções relevantes para minimizar esses tipos de riscos, incluindo isolar Claude de dados particularmente confidenciais em seus computadores.”

Esperançosamente, isso será suficiente para evitar que o pior aconteça.

Um modelo mais barato

A atração principal de hoje pode ter sido o modelo 3.5 Sonnet atualizado, mas a Anthropic também disse que uma versão atualizada do Haiku, o modelo mais barato e eficiente de sua série Claude, está a caminho.

O Claude 3.5 Haiku, previsto para as próximas semanas, irá igualar o desempenho do Claude 3 Opus, que já foi o modelo de última geração da Anthropic, em determinados benchmarks, com o mesmo custo e “velocidade aproximada” do Claude 3 Haiku.

“Com velocidades rápidas, acompanhamento aprimorado de instruções e uso de ferramentas mais preciso, o Claude 3.5 Haiku é adequado para produtos voltados ao usuário, tarefas especializadas de subagentes e geração de experiências personalizadas a partir de grandes volumes de dados, como histórico de compras, preços ou dados de inventário. ”, escreveu Anthropic em uma postagem de blog.

3.5 O Haiku estará inicialmente disponível como modelo somente texto e posteriormente como parte de um pacote multimodal que pode analisar texto e imagens.

Claude 3.5 Haiku
3.5 Desempenho de referência do Haiku. Créditos da imagem:Antrópico

Então, quando o 3.5 Haiku estiver disponível, haverá muitos motivos para usar o 3 Opus? E quanto ao 3.5 Opus, o sucessor do 3 Opus, que a Anthropic lançou em junho?

“Todos os modelos da família Claude 3 têm usos individuais para os clientes”, disse o porta-voz da Anthropic. “Claude 3.5 Opus está em nosso roteiro e com certeza compartilharemos mais assim que pudermos.”

Rolar para cima
Pular para o conteúdo