Soneto Claude 3.5 Pode Controlar Seu Computador

Tempo de leitura: 5 minutos

A Anthropic revelou uma grande atualização para seus modelos Claude AI, incluindo o novo recurso “Uso do computador”. Os desenvolvedores podem direcionar o Claude 3.5 Sonnet atualizado para navegar em aplicativos de desktop, mover cursores, clicar em botões e digitar texto – essencialmente imitando uma pessoa trabalhando em seu PC.

“Em vez de criar ferramentas específicas para ajudar Claude a concluir tarefas individuais, estamos ensinando-lhe conhecimentos gerais de informática – permitindo-lhe usar uma ampla gama de ferramentas padrão e programas de software projetados para pessoas”, escreveu a empresa em um post no blog.

A API Computer Use pode ser integrada para traduzir prompts de texto em comandos de computador, com a Anthropic dando exemplos como “usar dados do meu computador e online para preencher este formulário” e “mover o cursor para abrir um navegador da web”. Este é o primeiro modelo de IA do líder de IA capaz de navegar na web.

A atualização funciona analisando capturas de tela do que o usuário está vendo e calculando quantos pixels são necessários para mover o cursor na vertical ou na horizontal para clicar no local correto ou realizar outra tarefa usando o software disponível. Ele pode executar até centenas de etapas sucessivas para concluir um comando e se autocorrigirá e tentará novamente uma etapa caso encontre um obstáculo.

A API Computer Use, disponível agora em versão beta pública, visa permitir que os desenvolvedores automatizem processos repetitivos, testem software e conduzam tarefas abertas. A plataforma de desenvolvimento de software Replit já está explorando seu uso para navegar em interfaces de usuário para avaliar a funcionalidade à medida que os aplicativos são criados para seu produto Replit Agent.

“Permitir que as IA interajam diretamente com o software de computador da mesma forma que as pessoas irão desbloquear uma enorme variedade de aplicações que simplesmente não são possíveis para a atual geração de assistentes de IA”, escreveu a Anthropic em um post no blog.

O que você vai ler:

O uso do computador por Claude ainda é bastante sujeito a erros

A Antrópica admite que o recurso não é perfeito; ele ainda não consegue lidar com a rolagem, arrastar ou aplicar zoom com eficácia. Numa avaliação destinada a testar a sua capacidade de reservar voos, obteve sucesso apenas em 46% das vezes. Mas esta é uma melhoria em relação à iteração anterior, que obteve 36%.

Como o Claude depende de capturas de tela em vez de um fluxo contínuo de vídeo, ele pode perder ações ou notificações de curta duração. Os pesquisadores admitem que, durante uma demonstração de codificação, ele parou o que estava fazendo e começou a navegar pelas fotos do Parque Nacional de Yellowstone.

A pontuação foi de 14,9% no OSWorld, uma plataforma para avaliar a capacidade de um modelo de funcionar como os humanos fariam, para tarefas baseadas em capturas de tela. Isto está muito longe da habilidade de nível humano, considerada entre 70% e 75%, mas é quase o dobro do próximo melhor sistema de IA. A Anthropic também espera melhorar esse recurso com o feedback dos desenvolvedores.

O uso do computador tem alguns recursos de segurança que o acompanham

Os pesquisadores da Antrópico afirmam que foram tomadas uma série de medidas deliberadas com foco na minimização do risco potencial associado ao uso do computador. Por questões de privacidade e segurança, ele não treina com base nos dados enviados pelos usuários, incluindo capturas de tela que processa, nem pode acessar a Internet durante o treinamento.

Uma das principais vulnerabilidades identificadas são os ataques de injeção imediata, um tipo de ‘jailbreak’ em que instruções maliciosas podem fazer com que a IA se comporte de forma inesperada.

Uma pesquisa do AI Safety Institute do Reino Unido descobriu que os ataques de jailbreak poderiam “permitir um comportamento coerente e malicioso do agente em várias etapas” em modelos sem recursos de uso de computador, como o GPT-4o. Um estudo separado descobriu que os ataques de jailbreak de IA generativa são bem-sucedidos em 20% das vezes.

Para mitigar o risco de injeção imediata no Claude Sonnet 3.5, as equipes de Confiança e Segurança implementaram sistemas para identificar e prevenir tais ataques, especialmente porque Claude pode interpretar capturas de tela que podem conter conteúdo prejudicial.

Além disso, os desenvolvedores previram a possibilidade de os usuários abusarem dos conhecimentos de informática de Claude. Como resultado, criaram “classificadores” e sistemas de monitorização que detectam quando podem estar a ocorrer atividades prejudiciais, como spam, desinformação ou comportamentos fraudulentos. Também não é possível postar nas redes sociais ou interagir com sites do governo para evitar ameaças políticas.

Os testes conjuntos de pré-implantação foram conduzidos pelos Institutos de Segurança dos EUA e do Reino Unido, e o Claude 3.5 Sonnet permanece no Nível de Segurança AI 2, o que significa que não representa riscos significativos que exijam medidas de segurança mais rigorosas do que as existentes.

VEJA: OpenAI e Anthropic Sign fazem acordos com o US AI Safety Institute, entregando modelos de fronteira para testes

Claude 3.5 Sonnet é melhor em codificação do que seu antecessor

Além do beta para uso em computador, Claude 3.5 Sonnet oferece ganhos significativos em codificação e uso de ferramentas, mas com o mesmo custo e velocidade de seu antecessor. O novo modelo melhora seu desempenho no SWE-bench Verified, um benchmark de codificação, de 33,4% para 49%, superando até mesmo modelos de raciocínio como OpenAI o1-preview.

Um número crescente de empresas está usando IA generativa para codificar. No entanto, a tecnologia não é perfeita nesta área. Sabe-se que o código gerado por IA causa interrupções e os líderes de segurança estão considerando proibir o uso da tecnologia no desenvolvimento de software.

VEJA: Quando a IA erra o alvo: por que os compradores de tecnologia enfrentam falhas em projetos

Os usuários do Claude 3.5 Sonnet notaram as melhorias em ação, de acordo com a Anthropic. O GitLab testou-o para tarefas DevSecOps e descobriu que ele fornecia um raciocínio até 10% mais forte, sem latência adicional. O laboratório de IA Cognition também relatou melhorias em sua codificação, planejamento e solução de problemas em relação à versão anterior.

O Claude 3.5 Sonnet está disponível hoje por meio da API Anthropic, Amazon Bedrock e Vertex AI do Google Cloud. Uma versão sem uso do computador está sendo lançada nos aplicativos Claude.

Claude 3.5 Haiku é mais barato, mas igualmente eficaz

A Anthropic também lançou o Claude 3.5 Haiku, uma versão atualizada do modelo Claude mais barato. O Haiku oferece respostas mais rápidas, bem como melhor precisão de instruções e uso de ferramentas, tornando-o útil para aplicativos voltados ao usuário e gerando experiências personalizadas a partir de dados.

O Haiku corresponde ao desempenho do modelo maior Claude 3 Opus pelo mesmo custo e velocidade semelhante da geração anterior. Ele também supera o Claude 3.5 Sonnet original e o GPT-4o no SWE-bench Verified, com uma pontuação de 40,6%.

Claude 3.5 Haiku será lançado no próximo mês como um modelo somente com prompt de texto. As entradas de imagens serão possíveis no futuro.

A mudança global em direção aos agentes de IA

A capacidade de uso do computador do Claude 3.5 Sonnet coloca o modelo no domínio dos agentes de IA – ferramentas que podem executar tarefas complexas de forma autônoma.

“A escolha do termo 'uso de computador' em vez de 'agentes' pela Anthropic torna esta tecnologia mais acessível aos usuários regulares”, disse Yiannis Antoniou, chefe de dados, análises e IA da consultoria de tecnologia Lab49, ao TechRepublic por e-mail.

Os agentes estão substituindo os copilotos de IA — ferramentas projetadas para auxiliar e fornecer sugestões ao usuário, em vez de agir de forma independente — como ferramentas obrigatórias nas empresas. De acordo com o Financial Times, Microsoft, Workday e Salesforce colocaram recentemente os agentes no centro de seus planos de IA.

Em setembro, a Salesforce lançou o Agentforce, uma plataforma para implantação de IA generativa em áreas como suporte ao cliente, serviços, vendas ou marketing.

Armand Ruiz, vice-presidente de gerenciamento de produtos da IBM para sua plataforma de IA, disse aos delegados do Festival SXSW na Austrália esta semana que o próximo grande salto na IA dará início a uma “era agente”, onde agentes especializados de IA colaboram com humanos para impulsionar organizações. eficiências.

“Temos um longo caminho a percorrer para que a IA nos permita realizar todas essas tarefas rotineiras e fazê-las de uma forma confiável, e então fazê-las de uma forma que você possa dimensionar e então explicar, e você pode monitorá-lo”, disse ele à multidão. “Mas chegaremos lá e chegaremos lá mais rápido do que pensamos.”

Os agentes de IA poderiam até chegar ao ponto de eliminar a necessidade de intervenção humana na sua própria criação. Na semana passada, a Meta disse que estava lançando um modelo de IA “avaliador autodidata” projetado para avaliar autonomamente seu próprio desempenho e o de outros sistemas de IA, demonstrando o potencial dos modelos aprenderem com seus próprios erros.