Molmo da AI2 mostra que o código aberto pode atender e superar modelos multimodais fechados

O senso comum é que empresas como Google, OpenAI e Anthropic, com reservas de dinheiro sem fundo e centenas de pesquisadores de primeira linha, são as únicas que podem criar um modelo de fundação de última geração. Mas, como uma delas notou, elas “não têm fosso” — e a AI2 mostrou isso hoje com o lançamento do Molmo, um modelo de IA multimodal que combina com o melhor delas, sendo também pequeno, gratuito e verdadeiramente de código aberto.

Para ser claro, Molmo (modelo de linguagem aberta multimodal) é um mecanismo de compreensão visual, não um chatbot de serviço completo como o ChatGPT. Ele não tem uma API, não está pronto para integração empresarial e não pesquisa na web para você ou para seus próprios propósitos. Você pode pensar nele como a parte desses modelos que vê uma imagem, a entende e pode descrever ou responder perguntas sobre ela.

Molmo (disponível em variantes de parâmetros 72B, 7B e 1B), como outros modelos multimodais, é capaz de identificar e responder perguntas sobre quase qualquer situação ou objeto cotidiano. Como você usa esta cafeteira? Quantos cachorros nesta imagem estão com a língua de fora? Quais opções neste menu são veganas? Quais são as variáveis ​​neste diagrama? É o tipo de tarefa de compreensão visual que vimos demonstrada com vários níveis de sucesso e latência por anos.

O que é diferente não são necessariamente os recursos do Molmo (que você pode ver na demonstração abaixo ou testar aqui), mas como ele os alcança.

A compreensão visual é um domínio amplo, é claro, abrangendo coisas como contar ovelhas em um campo, adivinhar o estado emocional de uma pessoa e resumir um menu. Como tal, é difícil de descrever, muito menos testar quantitativamente, mas como o presidente da AI2, Ali Farhadi, explicou em um evento de demonstração na sede da organização de pesquisa em Seattle, você pode pelo menos mostrar que dois modelos são semelhantes em suas capacidades.

“Uma coisa que estamos mostrando hoje é que aberto é igual a fechado”, ele disse, “e pequeno agora é igual a grande.” (Ele esclareceu que queria dizer ==, ou seja, equivalência, não identidade; uma distinção sutil que alguns apreciarão.)

Uma constante quase constante no desenvolvimento de IA tem sido “quanto maior, melhor”. Mais dados de treinamento, mais parâmetros no modelo resultante e mais poder de computação para criá-los e operá-los. Mas em algum momento você literalmente não pode torná-los maiores: não há dados suficientes para isso, ou os custos e tempos de computação ficam tão altos que se tornam autodestrutivos. Você simplesmente tem que se contentar com o que tem, ou melhor ainda, fazer mais com menos.

Farhadi explicou que o Molmo, embora tenha um desempenho equivalente ao de modelos como GPT-4o, Gemini 1.5 Pro e Claude-3.5 Sonnet, pesa (de acordo com as melhores estimativas) cerca de um décimo de seu tamanho. E ele se aproxima de seu nível de capacidade com um modelo que é um décimo de que.

Créditos da imagem: AI2

“Há uma dúzia de benchmarks diferentes que as pessoas avaliam. Eu não gosto desse jogo, cientificamente… mas eu tinha que mostrar um número para as pessoas”, ele explicou. “Nosso maior modelo é um modelo pequeno, 72B, ele está superando GPTs e Claudes e Geminis nesses benchmarks. Novamente, leve isso com um grão de sal; isso significa que isso é realmente melhor do que eles ou não? Eu não sei. Mas pelo menos para nós, significa que isso é jogar o mesmo jogo.”

Se quiser tentar derrubá-lo, sinta-se à vontade para conferir a demonstração pública, que funciona também em dispositivos móveis. (Se não quiser fazer login, você pode atualizar ou rolar para cima e “editar” o prompt original para substituir a imagem.)

O segredo é usar menos, mas dados de melhor qualidade. Em vez de treinar em uma biblioteca de bilhões de imagens que não podem ser todas controladas, descritas ou desduplicadas, o AI2 curou e anotou um conjunto de apenas 600.000. Obviamente, isso ainda é muito, mas comparado com seis bilhões é uma gota no oceano – uma fração de um por cento. Embora isso deixe de fora um pouco de coisas de cauda longa, seu processo de seleção e método de anotação interessante lhes dá descrições de altíssima qualidade.

Interessante como? Bem, eles mostram às pessoas uma imagem e dizem para elas descreverem — em voz alta. Acontece que as pessoas falam sobre as coisas de forma diferente de como escrevem sobre elas, e isso produz resultados não apenas precisos, mas também conversacionais e úteis. As descrições de imagem resultantes que o Molmo produz são ricas e práticas.

Isso é melhor demonstrado por sua nova, e por pelo menos alguns dias, habilidade única de “apontar” para as partes relevantes das imagens. Quando solicitado a contar os cães em uma foto (33), ele colocou um ponto em cada um dos seus rostos. Quando solicitado a contar as línguas, ele colocou um ponto em cada língua. Essa especificidade permite que ele faça todos os tipos de novas ações de zero-shot. E, mais importante, ele funciona em interfaces da web também: sem olhar para o código do site, o modelo entende como navegar em uma página, enviar um formulário e assim por diante. (O Rabbit recentemente mostrou algo semelhante para seu r1, para lançamento na próxima semana.)

Créditos da imagem: AI2

Então por que tudo isso importa? Modelos saem praticamente todos os dias. O Google acaba de anunciar alguns. O OpenAI tem um dia de demonstração chegando. Perplexity está constantemente provocando uma coisa ou outra. Meta está promovendo a versão Llama, seja lá o que for.

Bem, o Molmo é completamente gratuito e de código aberto, além de ser pequeno o suficiente para rodar localmente. Nenhuma API, nenhuma assinatura, nenhum cluster de GPU resfriado a água necessário. A intenção de criar e lançar o modelo é capacitar desenvolvedores e criadores a fazer aplicativos, serviços e experiências com tecnologia de IA sem precisar buscar permissão de (e pagar) uma das maiores empresas de tecnologia do mundo.

“Estamos mirando em pesquisadores, desenvolvedores, desenvolvedores de aplicativos, pessoas que não sabem como lidar com esses (grandes) modelos. Um princípio fundamental para mirar em uma gama tão ampla de público é o princípio fundamental que temos defendido há algum tempo, que é: torná-lo mais acessível”, disse Farhadi. “Estamos lançando cada coisa que fizemos. Isso inclui dados, limpeza, anotações, treinamento, código, pontos de verificação, avaliação. Estamos lançando tudo sobre isso que desenvolvemos.”

Ele acrescentou que espera que as pessoas comecem a construir com esse conjunto de dados e código imediatamente — incluindo rivais endinheirados, que absorvem quaisquer dados “publicamente disponíveis”, ou seja, qualquer coisa que não esteja definida. (“Se eles mencionam ou não é uma história completamente diferente”, ele acrescentou.)

O mundo da IA ​​se move rápido, mas cada vez mais os gigantes estão se encontrando em uma corrida para o fundo, reduzindo os preços ao mínimo enquanto arrecadam centenas de milhões para cobrir o custo. Se capacidades semelhantes estão disponíveis em opções gratuitas e de código aberto, o valor oferecido por essas empresas pode realmente ser tão astronômico? No mínimo, Molmo mostra que, embora seja uma questão em aberto se o imperador tem roupas, ele definitivamente não tem um fosso.

Rolar para cima