O Agente De 'modelo De Grande Ação' Baseado Na Web Do Rabbit Chega Ao R1 Já Esta Semana

O Rabbit r1 era o gadget essencial do início de 2024, mas o rubor desapareceu rapidamente quando as promessas expansivas da empresa não se materializaram. O CEO Jesse Lyu admite que “no primeiro dia, colocamos nossas expectativas muito altas”, mas também disse que uma atualização que chegará aos dispositivos este mês finalmente liberará o alardeado Large Action Model na web.

Embora os céticos possam (justificadamente) ver isso como muito pouco, muito tarde ou outra mudança de rumo, a aspiração do Rabbit de construir um agente independente de plataforma para aplicativos móveis e da web ainda tem valor fundamental — ainda que em grande parte teórico.

Falando ao TechCrunch, Lyu disse que os últimos seis meses foram um turbilhão de remessas, correções de bugs, melhoria dos tempos de resposta e adição de recursos menores. Mas, apesar das 16 atualizações over-the-air para o r1, ele continua fundamentalmente limitado a interagir com um LLM ou acessar um dos sete serviços específicos, como Uber e Spotify.

“Essa foi a primeira versão do LAM, treinada em gravações coletadas de trabalhadores de dados, mas não é genérica — ela só se conecta a esses serviços”, ele disse. Se era ou não o que eles chamam de LAM é bem acadêmico neste momento; qualquer que fosse o modelo, ele não fornecia os recursos que o Rabbit detalhou em sua estreia.

O agente de 'modelo de grande ação' baseado na web do Rabbit chega ao r1 já esta semana 1

O que você vai ler:

Um agente generalista baseado na web

Mas o Rabbit está pronto para lançar a primeira versão genérica, ou seja, não específica para nenhum aplicativo ou interface, do LAM, que Lyu demonstrou para mim.

Esta versão é um agente baseado na web que raciocina os passos para fazer qualquer tarefa comum, como comprar ingressos para um show, registrar um site ou até mesmo jogar um jogo online. “Nossa meta é muito clara: no final de setembro, seu r1 de repente fará muito mais coisas. Ele deve suportar qualquer coisa que você possa fazer em qualquer site”, disse Lyu.

Dada uma tarefa, ele primeiro a divide em etapas, então começa a executá-las analisando o que vê na tela: botões, campos, imagens, independentemente da posição ou aparência. Então ele interage com o elemento apropriado com base no que aprendeu em geral sobre como os sites funcionam.

Pedi a ele (por meio de Lyu, que o operava remotamente) para registrar um novo site para um festival de cinema. Fazendo uma ação a cada poucos segundos, ele pesquisou registros de domínio no Google, escolheu um (um patrocinado, eu acho), colocou festival de cinema na caixa de domínio e, da lista de opções resultante, escolheu “filmfestival2023.com” por US$ 14. Tecnicamente, eu não dei a ele nenhuma restrição como “para 2025” ou “festival de terror” ou algo assim.

Da mesma forma, quando Lyu pediu para ele procurar e comprar um r1, ele rapidamente encontrou seu caminho para o eBay, onde dezenas estavam à venda. Talvez um bom resultado para um usuário, mas não para o fundador da empresa que se apresentou à imprensa! Ele riu e fez o prompt novamente com a adição de que ele deveria comprar apenas do site oficial. O agente conseguiu.

Em seguida, ele fez com que ele jogasse o jogo de palavras diário do Dictionary.com. Foi preciso um pouco de engenharia rápida (o modelo encontrou uma saída, pois podia terminar rapidamente clicando em “fim de jogo”), mas ele conseguiu.

Mas qual navegador ele usa? Um novo e limpo na nuvem, Lyu disse, mas eles estão trabalhando em versões locais, como uma extensão do Chrome, o que significa que você pode usar sessões existentes e não precisaria fazer login em seus serviços.

Para esse fim, como os usuários são compreensivelmente (e corretamente) cautelosos em dar a qualquer empresa acesso total às suas credenciais, o agente não está equipado com elas. Lyu sugeriu que um pequeno modelo de linguagem isolado com suas credenciais poderia ser invocado privadamente no futuro para executar logins. Parece ser uma questão em aberto como isso funcionará, o que é de certa forma esperado dada a novidade do espaço.

Ainda aprendendo

A demonstração me mostrou algumas coisas. Primeiro, se dermos à empresa e seus desenvolvedores o benefício da dúvida de que isso não é uma farsa elaborada (como alguns acreditam), parece ser um agente web funcional e de propósito geral. E isso seria, se não o primeiro em si, certamente o primeiro a ser facilmente acessível aos consumidores.

“Há empresas fazendo verticais, para Excel ou documentos legais, mas acredito que este seja um dos primeiros agentes gerais para consumidores”, disse Lyu. “A ideia é que você pode dizer qualquer coisa que possa ser alcançada por meio de um site. Teremos o agente genérico para sites primeiro, depois para aplicativos.”

Segundo, mostrou que a engenharia rápida ainda é muito necessária. A maneira como você formula uma solicitação pode facilmente ser a diferença entre o sucesso e o fracasso, e isso provavelmente não é algo que os consumidores comuns tolerarão.

Lyu alertou que esta é uma “versão de playground”, não final de forma alguma, e que embora seja um agente web geral totalmente funcional, ainda pode ser melhorado de muitas maneiras. Por exemplo, ele disse, “o modelo é inteligente o suficiente para fazer o planejamento, mas não é inteligente o suficiente para pular etapas”. Ele não “aprenderia” que um usuário prefere não comprar seus eletrônicos no eBay, ou que ele deveria rolar para baixo após a pesquisa para evitar a parede de resultados patrocinados.

Os dados do usuário não serão coletados para melhorar o modelo — ainda. Lyu atribuiu isso ao fato de que basicamente não há um método de avaliação para um sistema como esse, então é difícil dizer quantitativamente se melhorias foram feitas. Um “modo de ensino” também está chegando, para que você possa mostrar a ele como fazer um tipo específico de tarefa.

Curiosamente, a empresa também está trabalhando em um agente de desktop que pode interagir com aplicativos como processadores de texto, tocadores de música e, claro, navegadores. Isso ainda está nos estágios iniciais, mas está funcionando. “Você nem precisa inserir um destino, ele apenas tenta usar o computador. Contanto que haja uma interface, ele pode controlá-lo.”

Terceiro, ainda não há um “aplicativo matador”, ou pelo menos nenhum óbvio. O agente é impressionante, mas eu pessoalmente teria pouca utilidade para ele, já que infelizmente fico sentado na frente de um navegador por 8 horas por dia de qualquer maneira. Há quase certamente alguns aplicativos excelentes, mas nenhum me veio à mente que tornasse a utilidade de um autômato baseado em navegador tão óbvia quanto a de, digamos, um aspirador de pó robô.

Por que não um aplicativo novamente?

Eu levantei a objeção comum a todo o modelo de negócios do Rabbit, essencialmente que “isso poderia ser um aplicativo”.

Lyu claramente já ouviu essa crítica muitas vezes e estava confiante em sua resposta.

“Se você fizer as contas, não faz sentido”, ele disse. “Sim, é tecnicamente possível, mas você vai irritar a Apple e o Google desde o primeiro dia. Eles nunca deixarão isso ser melhor do que Siri ou Gemini. Assim como não há como a inteligência da Apple controlar melhor as coisas do Google, ou vice-versa. E eles pegam 30% da receita! Se no começo tivéssemos apenas construído um aplicativo, nunca teríamos esse ímpeto.”

O argumento fundamental que Rabbit está fazendo é que pode haver uma IA ou dispositivo de terceiros que pode acessar e operar todos os seus outros serviços, e de fora deles, como você. “Um sistema de agente genérico multiplataforma”, como Lyu o chamou. “Nós controlaremos cada IU, e o site é um bom começo. Então iremos para o Windows, para o MacOS, para os telefones.”

Falando nisso: “Nós nunca dissemos que nunca construiríamos um telefone no futuro.” Isso não é antitético à tese original deles de um dispositivo menor e mais simples? Talvez, talvez não.

Enquanto isso, eles estão trabalhando para começar a cumprir as promessas que fizeram no começo deste ano. O novo modelo deve estar disponível para qualquer proprietário de r1 em algum momento desta semana, quando a atualização OTA for lançada. Instruções sobre como invocá-la também chegarão então. Lyu alertou os usuários expectantes com seu eufemismo característico.

“Estamos definindo as expectativas corretamente. Não é perfeito”, ele disse. “É apenas o melhor que a raça humana conseguiu até agora.”