Pular para o conteúdo

Como a Cerebras impulsionou o Llama da Meta para um desempenho de ‘modelo de fronteira’

Como a Cerebras impulsionou o Llama da Meta para um desempenho de ‘modelo de fronteira’
Tempo de leitura: 7 minutos

cerebras-2024-neurips-deck-slide-12

A Cerebras usou uma cadeia de pensamento no momento da inferência para tornar um modelo de IA menor igual ou melhor a um modelo maior.

Cerebras Sistemas

A Cerebras Systems anunciou na terça-feira que fez com que o Llama da Meta Platforms funcionasse tão bem em uma versão pequena quanto em uma versão grande, adicionando a abordagem cada vez mais popular em inteligência artificial generativa (IA) conhecida como “cadeia de pensamento”. A fabricante de computadores com IA anunciou o avanço no início da conferência anual NeurIPS sobre IA.

“Esta é uma capacidade apenas de código fechado, mas queríamos trazê-la para o ecossistema mais popular, que é o Llama”, disse James Wang, chefe do esforço de marketing de produto da Cerebras, em entrevista à ZDNET.

O projeto é o mais recente de uma linha de projetos de código aberto que a Cerebras realizou para demonstrar as capacidades de seu computador de IA especialmente desenvolvido, o “CS-3”, que vende em competição com o status quo em IA – chips GPU dos fornecedores habituais, Nvidia e AMD.

Também: DeepSeek desafia o o1 da OpenAI na cadeia de pensamento – mas faltam alguns elos

A empresa conseguiu treinar o modelo de IA de código aberto Llama 3.1 que usa apenas 70 bilhões de parâmetros para alcançar a mesma precisão ou melhor precisão em vários testes de benchmark que a versão muito maior de 405 bilhões de parâmetros do Llama.

Esses testes incluem o teste CRUX de “tarefas de raciocínio complexo”, desenvolvido no MIT e Meta, e o LiveCodeBench para desafios de geração de código, desenvolvido na UC Berkeley, MIT e Cornell University, entre outros.

A cadeia de pensamento pode permitir que modelos que usam menos tempo de treinamento, dados e poder de computação igualem ou superem o desempenho de um modelo grande.

“Essencialmente, agora estamos superando o Llama 3.1 405B, um modelo sete vezes maior, apenas pensando mais na hora da inferência”, disse Wang.

A ideia por trás do processamento da cadeia de pensamento é que o modelo de IA detalhe a sequência de cálculos realizados em busca da resposta final, para alcançar uma IA “explicável”. Tal IA explicável poderia concebivelmente dar aos humanos maior confiança nas previsões da IA, revelando a base das respostas.

A OpenAI popularizou a abordagem de cadeia de pensamento com seu modelo de linguagem grande “o1” lançado recentemente.

Além disso: como as leis se esforçam para acompanhar os avanços da IA ​​e o roubo de dados

A resposta da Cerebras ao o1, apelidada de “Planejamento e Otimização da Cerebras”, ou CePO, opera exigindo que o Llama – no momento em que o prompt é enviado – “produza um plano para resolver o problema em questão, passo a passo”, execute o plano repetidamente, analise as respostas a cada execução e, em seguida, selecione uma resposta “melhor de”.

“Ao contrário de um LLM tradicional, onde o código é literalmente token por token por token, este analisará seu próprio código gerado e verá, faz sentido?” Wang explicou. “Existem erros de sintaxe? Ele realmente realiza o que a pessoa pede? E executará esse tipo de loop lógico de execução do plano e verificação cruzada várias vezes.”

Além de igualar ou exceder o modelo 405B do Llama 3.1, a Cerebras foi capaz de pegar a versão mais recente do Llama, 3.3, e fazê-la funcionar no nível de grandes modelos de linguagem “fronteira”, como o Claude 3.5 Sonnet da Anthropic e o GPT-4 da OpenAI. Turbo.

“Acho que esta é a primeira vez que alguém pegou um modelo 70B, que geralmente é considerado de tamanho médio, e alcançou um desempenho de nível de fronteira”, disse Wang.

Também: A startup de IA Cerebras revela o WSE-3, o maior chip já feito para IA generativa

Humoristicamente, Cerebras também colocou Llama no “Strawberry Test”, um prompt que alude ao codinome “morango” do o1 da OpenAI. Quando os números de “r” são multiplicados, como “strrrawberryrry”, e os modelos de linguagem são solicitados a informar o número de r’s, eles geralmente falham. O Llama 3.1 foi capaz de relacionar com precisão vários números de r usando cadeia de pensamento.

Do ponto de vista corporativo, a Cerebras está ansiosa para demonstrar as vantagens de hardware e software do seu computador de IA, o CS-3.

O trabalho no Llama foi feito em CS-3 usando o chip WSE3 da Cerebras, o maior semicondutor do mundo. A empresa foi capaz de executar o modelo Llama 3.1 70B, bem como o mais recente Llama 3.3, na cadeia de pensamento, sem o atraso típico induzido em o1 e outros modelos rodando em chips Nvidia e AMD, disse Wang.

A versão em cadeia de pensamento do 3.1 70B é “o único modelo de raciocínio que roda em tempo real” quando executado nos Cerebras CS2s, afirma a empresa. “O modelo de raciocínio OpenAI o1 é executado em minutos; CePO é executado em segundos.”

A Cerebras, que recentemente lançou o que chama de “o serviço de inferência mais rápido do mundo”, afirma que as máquinas CS2 são 16 vezes mais rápidas que o serviço mais rápido em chips GPU, com 2.100 tokens processados ​​a cada segundo.

Também: A startup de IA Cerebras estreia o serviço de ‘inferência mais rápida do mundo’ – com uma reviravolta

A experiência da Cerebras apoia uma sensação crescente de que não só o treino de modelos de IA, mas também a realização de previsões na produção, está a ser dimensionado para necessidades computacionais cada vez maiores à medida que os prompts se tornam mais complexos.

Em geral, disse Wang, a precisão de grandes modelos de linguagem melhorará proporcionalmente à quantidade de computação utilizada, tanto no treinamento quanto na inferência; entretanto, o fator pelo qual o desempenho melhora irá variar dependendo da abordagem utilizada em cada caso.

“Diferentes técnicas serão dimensionadas com a computação em diferentes graus”, disse Wang. “A inclinação das linhas será diferente. O que é notável – e a razão pela qual se fala em leis de escala – é o fato de que ela escala, e aparentemente sem fim.”

Também: Cerebras, pioneira em IA, abre IA generativa onde OpenAI desaparece

“A visão clássica era que as melhorias estagnariam e seriam necessárias inovações algorítmicas”, disse ele. “As leis de escalonamento dizem: ‘Não, você pode simplesmente adicionar mais computação sem limite prático.’ O tipo de rede neural, método de raciocínio, etc. afeta a taxa de melhoria, mas não sua natureza escalável.”

Em diferentes implementações, a cadeia de pensamento pode gerar uma série detalhada de seus resultados intermediários ou um tipo de mensagem de status dizendo algo como “pensando”. Questionado sobre qual Cerebras optou, Wang disse que ele próprio não tinha visto o resultado real, mas que “provavelmente é detalhado. Quando lançamos coisas projetadas para servir modelos Llama e de código aberto, as pessoas gostam de ver os resultados intermediários”.

cerebras-2024-neurips-deck-slide-17

Cerebras demonstra treinamento inicial de um modelo de linguagem de trilhões de parâmetros em uma única máquina, usando 55 terabytes de DRAM comum.

Cerebras Sistemas

Também na terça-feira, a Cerebras anunciou que demonstrou o treinamento “inicial” de um grande modelo de linguagem que possui um trilhão de parâmetros, em um projeto de pesquisa conduzido com o Sandia National Laboratories, laboratório administrado pelo Departamento de Energia dos EUA.

O trabalho foi feito em um único CS-3, combinado com seu computador de memória especialmente desenvolvido, o MemX. Uma versão especial do MemX foi aumentada para 55 terabytes de memória para armazenar os pesos dos parâmetros do modelo, que foram então transmitidos para o CS-3 através do computador de rede dedicado da Cerebras, o SwarmX.

Além disso: deseja LLMs de IA generativos integrados aos seus dados de negócios? Você precisa de RAG

O sistema CS-3, afirma a Cerebras, substituiria 287 chips combinados de CPU e GPU “Grace Blackwell 200” da Nvidia, necessários para acessar memória equivalente.

A combinação do CS-3 e do MemX ocupa dois racks de equipamentos de telecomunicações padrão, disse Wang. A empresa afirma que isso ocupa menos de um por cento do espaço e da energia do arranjo de GPU equivalente.

O dispositivo MemX usa DRAM comum, conhecido como DDR-5, em contraste com as placas GPU que possuem “memória de alta largura de banda” mais cara, ou HBM.

“Ele não afeta a cadeia de fornecimento da HBM, por isso é extremamente fácil de adquirir e barato”, disse Wang.

cerebras-2024-neurips-deck-slide-20

A Cerebras afirma que seu sistema clusterizado reduz enormemente a quantidade de código necessária para a tarefa de programação em um modelo de trilhão de parâmetros.

Cerebras Sistemas

A Cerebras aposta que a verdadeira recompensa está no modelo de programação. Para programar as centenas de GPUs em conjunto, disse Wang, um total de 20.507 linhas de código são necessárias para coordenar Python, C e C++ e código shell de modelos de IA, além de outros recursos. A mesma tarefa pode ser realizada na máquina CS-3 com 565 linhas de código.

“Isso não é apenas uma necessidade do ponto de vista do hardware, é muito mais simples do ponto de vista da programação”, disse ele, “porque você pode colocar esse modelo de trilhões de parâmetros diretamente neste bloco de memória”, enquanto as GPUs envolvem “gerenciamento”. em “milhares de blocos de 80 gigabytes” de memória HBM para coordenar parâmetros.

O projeto de pesquisa treinou o modelo de IA, que não é divulgado, em 50 etapas de treinamento, embora ainda não o tenha treinado para “convergência”, ou seja, para um estado finalizado. Treinar um modelo de trilhões de parâmetros para a convergência exigiria muito mais máquinas e mais tempo.

Além disso: a melhor IA para codificação (e o que não usar)

No entanto, a Cerebras posteriormente trabalhou com Sandia para realizar o treinamento em 16 máquinas CS-3. O desempenho aumentou de forma “linear”, disse Wang, onde a precisão do treinamento aumenta proporcionalmente ao número de computadores colocados no cluster.

“A GPU sempre reivindicou escala linear, mas é muito, muito difícil de conseguir”, disse Wang. “O ponto principal do nosso cluster em escala de wafer é que, como a memória é um bloco unificado, a computação é separada e temos uma estrutura intermediária, você não precisa se preocupar com isso.”

Embora o trabalho com Sandia não tenha treinado o modelo para a convergência, esse treinamento em modelos grandes “é muito importante para nossos clientes”, disse Wang. “Este é literalmente o primeiro passo antes de você fazer uma grande corrida que custa tanto dinheiro”, ou seja, convergência total, disse ele.

Um dos maiores clientes da empresa, a empresa de investimentos G42 dos Emirados Árabes Unidos, “está muito motivado para alcançar um resultado de classe mundial”, disse ele. “Eles querem treinar um modelo muito, muito grande.”

Sandia provavelmente publicará sobre o experimento quando tiver alguns “resultados finais”, disse Wang.

A conferência NeurIPS é um dos principais eventos em IA, muitas vezes apresentando a primeira divulgação pública de inovações. A programação completa do evento de uma semana pode ser encontrada no site do NeurIPS.