Após o sucesso da série GPT de grandes modelos de linguagem da OpenAI, um número crescente de instituições está propondo modelos de “fundação” para inteligência artificial que, como o GPT, são “pré-treinados” para terem capacidades muito amplas num domínio de conhecimento. Vimos isso na semana passada com o CEO da Nvidia, Jensen Huang, propondo um “modelo de base mundial” para veículos e robôs autônomos.
Na terça-feira, na conferência anual JP Morgan Healthcare em São Francisco, a startup de computadores de IA Cerebras Systems e a potência de pesquisa médica Mayo Clinic apresentaram descobertas do que chamam de modelo básico para genômica que pode revelar a raiz genética de doenças hereditárias. O objetivo é “construir o ChatGPT da saúde”, segundo a Cerebras e a Mayo Clinic.
Além disso: os agentes de IA poderão em breve ultrapassar as pessoas como usuários principais do aplicativo
O primeiro avanço da colaboração de um ano é a capacidade potencial de prever a resposta aos medicamentos de pacientes com artrite reumatóide. Esse avanço potencial poderia, segundo as empresas, “acelerar significativamente o tempo de diagnóstico e melhorar a precisão”.
“É emocionante o trabalho que nossas equipes fizeram juntas, algo de que sempre ouvimos falar, que é que você será capaz de prever a resposta à terapia”, disse o Dr. Matthew Callstrom, MD, diretor médico da Clínica Mayo para estratégia e presidente de radiologia, em entrevista que conduzimos antes da apresentação. Callstrom supervisiona equipes da Mayo que trabalham com a Cerebras.
“Isso provavelmente se tornará real nos próximos anos, à medida que tirarmos proveito do uso desses modelos básicos e do uso de dados que não são texto”, disse Callstrom.
“Existe um modelo básico para a linguagem, existem modelos básicos para o enovelamento de proteínas, e o trabalho que Mayo fez em nosso equipamento é um modelo básico para a genômica”, disse o cofundador e CEO da Cerebras, Andrew Feldman, na mesma entrevista.
A Cerebras e a Mayo Clinic anunciaram pela primeira vez uma parceria para trabalhar com os computadores Cerebras CS-3 AI há um ano. A Cerebras passou vários meses obtendo a certificação HIPPAA para trabalhar com dados privados de pacientes. Os experimentos foram executados em unidades do CS-3 operando em uma instalação de computação em nuvem da Cerebras reservada para a Clínica Mayo, e todos os dados utilizados foram armazenados localmente para estarem em conformidade com os requisitos da HIPAA.
“Essa parceria se desenvolveu exatamente como você esperava que acontecesse, onde eles trouxeram experiência no domínio e tinham enormes ativos de dados e experiência em IA”, disse Feldman. “E trouxemos experiência em IA e computação de classe mundial.”
Também: Nvidia Cosmos – uma plataforma de IA para mudar o futuro de robôs e carros – vence o Best of CES 2025
As ciências biológicas há muito usam redes neurais para prever se uma alteração em um nucleotídeo do DNA (um dos ácidos nucleicos individuais do DNA), guanina, adenina, citosina ou timina pode prever uma condição hereditária, como a artrite reumatóide.
No caso do modelo Cerebras-Mayo, a tecnologia opera em vez de grupos de alterações de nucleotídeos, para usar a interseção de alterações no DNA para obter maior poder preditivo.
O modelo básico é composto de um bilhão de parâmetros, ou pesos neurais, para filtrar os dados, que Feldman observa ser 10 vezes maior que o AlphaFold do Google DeepMind, que é considerado um modelo básico para problemas de dobramento de proteínas.
O modelo Cerebras-Mayo foi pré-treinado em um trilhão de tokens, uma mistura de dados genômicos de código aberto e dados internos de pacientes da Mayo, chamados Tapestry, para um total de 100.000 dados de pacientes.
De acordo com Feldman e Callstrom, esses dados genômicos individuais específicos no Tapestry – em vez dos dados genéricos idealizados de domínio público – contribuem para o aumento da precisão do modelo.
“Mayo possui um dos maiores conjuntos de dados do planeta”, disse Feldman. “Eles são líderes há décadas na reflexão cuidadosa sobre dados no domínio médico e agora estão encontrando insights sobre eles, e isso é exatamente o que você teria previsto anos atrás.”
A artrite reumatóide é uma doença incapacitante que afeta 1,3 milhão de pessoas. Até o momento, o padrão de tratamento tem sido evitar a progressão da inflamação por meio de tratamento de tentativa e erro com um medicamento quimioterápico chamado metotrexato.
Também: Absci e Memorial Sloan Kettering fazem parceria para pesquisar medicamentos contra o câncer usando IA
Os cientistas descobriram que a condição é 60% hereditária, o que significa que há uma probabilidade superior a 50-50 de que alguém desenvolva a doença com base na sua composição genética.
“A artrite reumatóide é uma doença autoimune bastante comum que causa inflamação das articulações”, explicou Callstrom. “A cartilagem fica erodida e você fica osso com osso e, muitas vezes, desalinhamento das articulações.”
“O objetivo é deter a inflamação precocemente”, disse Callstrom, porque a artrite reumatóide é uma condição permanente. “E o problema da artrite reumatóide é que você não sabe a que os pacientes responderão”. Apenas 40% dos pacientes, em média, respondem ao metotrexato, disse ele. Aqueles que não respondem têm que passar por mais uma rodada de meses de tratamento com outra terapia.
“Não é incomum que os pacientes passem por vários esforços com medicamentos para ver se conseguem interromper o curso da doença”, disse Callstrom.
O novo modelo básico não se concentra apenas nos genomas específicos dos pacientes do Tapestry, mas também “ajusta” o modelo usando dados da Clínica Mayo de 500 pacientes que se sabe terem respondido ao tratamento.
“A chave é que nossa equipe de reumatologia realmente rastreou os pacientes e como eles respondem à terapia, com metotrexato e outras terapias direcionadas, e manteve um banco de dados incrível de 6.000 pacientes”, explicou Callstrom. “Se você não tivesse isso, teria um monte de dados de pacientes, mas não saberia como testá-los.”
O modelo é então testado para prever o que aconteceu a uma amostra retida de pacientes que receberam metotrexato – por outras palavras, o modelo é testado para ver se consegue antecipar com precisão o que realmente ocorreu em ensaios terapêuticos históricos.
“Você pode imaginar fazer uma comparação A/B”, disse Callstrom, onde um grupo recebe a terapia e o outro recebe um placebo.
“Seus genes são basicamente comparados ao modelo geral para verificar se é possível prever se o novo paciente responderá ou não”, disse Callstrom, referindo-se à coorte de pacientes com artrite reumatóide.
“O que descobrimos é que parece ser uma promessa inicial ser capaz de fazer isso com o metotrexato”, para prever a resposta, disse ele.
Empregar um modelo de IA para prever a resposta ao metotrexato é uma inovação na medicina, disse Callstrom. “Não existe um modelo que preveja a resposta para pacientes com artrite reumatóide”, disse ele. “Você não poderia dizer: ‘Você responderá ao metotrexato’ – você não poderia dizer essas palavras.”
Também: Como a Cerebras impulsionou o Llama da Meta para um desempenho de ‘modelo de fronteira’
A hipótese, disse Callstrom, é que o novo modelo fundamental aponta para a genética subjacente da doença.
“A hipótese é que a resposta de um paciente à terapia esteja pelo menos parcialmente codificada em seu DNA”, disse ele. “Seu DNA gera certas proteínas que respondem ou não à terapia. Essa sempre foi a hipótese de resposta mista, seja ou não uma enzima específica ou resposta celular ou o que quer que seja.”
Os resultados são “preliminares”, advertiu Callstrom, baseados em um pequeno número de dados históricos de pacientes. Embora o modelo básico “demonstre alto desempenho em relação aos benchmarks”, é muito cedo para declarar que o modelo resolveu o problema, disse ele. Uma publicação que cobre os resultados está “em fase final” de elaboração, disse ele.
O trabalho “encontrou um sinal muito bom”, disse ele. “Estamos expandindo isso, vamos fazer mais.” Mesmo poder dizer que alguns pacientes não responderão a um medicamento pode ser um benefício inicial da ferramenta, disse ele. “Se você conseguir remover algumas pessoas do metotrexato com alguma certeza, isso será uma vitória”.
Além disso: como a IA pode sobrecarregar seu monitor de glicose – e detectar outros problemas de saúde
Para a Cerebras, que tem como prática lidar com tarefas de redes neurais especialmente grandes, a velocidade do conceito aos resultados é uma validação de seu hardware superior, disse Feldman.
“Com uma computação incrivelmente rápida, conseguimos obter resultados e, embora ainda sejam iniciais, isso tem sido muito mais rápido do que historicamente é a norma na pesquisa médica”, disse ele.
O próximo passo é melhorar ainda mais a precisão do modelo de fundação, disse ele. Isso pode incluir alimentar o modelo não apenas com dados genômicos, mas também com outros pontos de dados, incluindo filmes radiológicos das mãos e dos pés. A proteômica, o estudo das proteínas expressas, pode muito bem se tornar parte dos dados.
“A expressão destes genes é realmente importante”, ou seja, como o DNA se converte em proteínas, disse Callstrom. “Então, a proteômica e todas as coisas do nível de expressão genética, essa será outra fase do que faremos.”
O verdadeiro teste virá com pacientes reais em tratamento.
“O que precisa ser feito daqui para frente é pegar esses resultados iniciais, esse caso de uso, e realmente fazer o trabalho que fazemos na medicina, que é provar isso em pacientes daqui para frente”, disse Callstrom.