NVIDIA Expande Grandes Modelos de Linguagem para Biologia

As principais empresas farmacêuticas, startups de biotecnologia e pesquisadores pioneiros em biologia estão desenvolvendo aplicações de IA com o serviço e o framework NVIDIA BioNeMo LLM para gerar, prever e entender dados biomoleculares.
por Abraham Stern

À medida que os cientistas buscam novos insights sobre DNA, proteínas e outros blocos de construção da vida, o framework NVIDIA BioNeMo, anunciado hoje no NVIDIA GTC, acelerará suas pesquisas.

NVIDIA BioNeMo é um framework para treinamento e implantação de grandes modelos de linguagem biomolecular em escala de supercomputação, ajudando os cientistas a entender melhor as doenças e encontrar terapias para os pacientes. O framework do modelo de linguagem grande (LLM) suportará formatos de dados de química, proteína, DNA e RNA.

Faz parte da coleção NVIDIA Clara Discovery de frameworks, aplicações e modelos de IA para descoberta de medicamentos.

Assim como a IA está aprendendo a entender as linguagens humanas com modelos transformadores, também está aprendendo as linguagens da biologia e da química. Ao facilitar o treinamento de redes neurais massivas em dados biomoleculares, o NVIDIA BioNeMo ajuda os pesquisadores a descobrir novos padrões e insights em sequências biológicas, insights que os pesquisadores podem conectar a propriedades ou funções biológicas e até mesmo condições de saúde humana.

O NVIDIA BioNeMo fornece um framework para cientistas treinarem modelos de transformadores em grande escala usando conjuntos de dados maiores, resultando em redes neurais de melhor desempenho. O framework estará disponível para acesso antecipado no NVIDIA GPU Cloud, um hub para software otimizado para GPU.

Além do framework do modelo de linguagem, a NVIDIA BioNeMo possui um serviço de API no cloud com modelos de IA pré-treinados.

Framework BioNeMo Suporta Modelos Maiores e com Melhores Previsões

Os cientistas que usam modelos de processamento de linguagem natural para dados biológicos hoje geralmente treinam redes neurais relativamente pequenas que exigem pré-processamento personalizado. Ao adotar o BioNeMo, eles podem escalar até LLMs com bilhões ou trilhões de parâmetros que capturam informações sobre estrutura molecular, solubilidade de proteínas e muito mais.

BioNeMo é uma extensão do framework NVIDIA NeMo Megatron para treinamento acelerado por GPU de modelos de linguagem autossupervisionado em larga escala. É específico de domínio, projetado para suportar dados moleculares representados na notação SMILES para estruturas químicas e em sequências de sequência FASTA para aminoácidos e ácidos nucleicos.

“O framework permite que pesquisadores da área da saúde e biologia aproveitem seus conjuntos de dados biológicos e químicos em rápido crescimento”, disse Mohammed AlQuraishi, membro fundador do OpenFold Consortium e professor assistente do Departamento de Biologia de Sistemas da Universidade de Columbia. “Isso torna mais fácil descobrir e projetar terapias que visam precisamente a assinatura molecular de uma doença”.

Serviço BioNeMo Apresenta LLMs para Química e Biologia

Para desenvolvedores que desejam iniciar rapidamente com LLMs para aplicações digitais de biologia e química, o serviço NVIDIA BioNeMo LLM inclui três modelos de linguagem pré-treinados. Eles são otimizados para inferência e estão disponíveis com acesso antecipado por meio de uma API no cloud executada no NVIDIA DGX Foundry.

  • ESM-1b: Esta proteína LLM, originalmente publicada pela Meta AI Labs, processa sequências de aminoácidos para gerar representações que podem ser usadas para prever uma ampla variedade de propriedades e funções de proteínas. Também melhora a capacidade dos cientistas de entender a estrutura da proteína.
  • OpenFold: O consórcio público-privado que cria ferramentas de modelagem de proteínas de última geração tornará seu pipeline de IA de código aberto acessível por meio do serviço BioNeMo.
  • MegaMolBART: Treinado em 1,4 bilhão de moléculas, este modelo de química generativa pode ser usado para previsão de reação, otimização molecular e geração molecular de novo.
  • ProtT5: O modelo, desenvolvido em uma colaboração liderada pelo RostLab da Universidade Técnica de Munique e incluindo a NVIDIA, estende os recursos de LLMs de proteína como ESM-1b para geração de sequência.

No futuro, os pesquisadores que usarem o serviço BioNeMo LLM poderão personalizar os modelos LLM para maior precisão em suas aplicações em poucas horas, com ajustes finos e novas técnicas, como o p-tuning, um método de treinamento que requer um conjunto de dados com apenas algumas centenas de exemplos em vez de milhões.

Startups, Pesquisadores e Farmacêuticos Adotando NVIDIA BioNeMo

Uma ampla gama de especialistas em biotecnologia e farmacêutica está adotando o NVIDIA BioNeMo para apoiar a pesquisa de descoberta de medicamentos.

  • AstraZeneca e a NVIDIA usaram o supercomputador Cambridge-1 para desenvolver o modelo MegaMolBART incluído no serviço BioNeMo LLM. A empresa biofarmacêutica usará o framework BioNeMo para ajudar a treinar alguns dos maiores modelos de linguagem do mundo em conjuntos de dados de pequenas moléculas, proteínas e, em breve, DNA
  • Pesquisadores do Broad Institute of MIT e Harvard estão trabalhando com a NVIDIA para desenvolver modelos de transformadores de DNA de próxima geração usando o framework BioNeMo. Esses modelos serão integrados ao Terra, uma plataforma no cloud co-desenvolvida pelo Broad Institute, Microsoft e Verily que permite que pesquisadores biomédicos compartilhem, acessem e analisem dados de forma segura e em escala. Os modelos de IA também serão adicionados à coleção do serviço BioNeMo.
  • Evozyne, uma empresa de biotecnologia com sede em Chicago, combina engenharia e tecnologia de deep learning para projetar novas proteínas para resolver desafios de longa data em terapêutica e sustentabilidade. O framework BioNeMo permitirá o desenvolvimento da Evozyne de transformadores generativos de proteínas que melhoram os recursos atuais de engenharia de proteínas.
  • O consórcio OpenFold planeja usar o framework BioNeMo para avançar em seu trabalho de desenvolvimento de modelos de IA que podem prever estruturas moleculares de sequências de aminoácidos com precisão quase experimental.
  • Peptone está focada na modelagem de proteínas intrinsecamente desordenadas (proteínas que não possuem uma estrutura 3D estável). A empresa está trabalhando com a NVIDIA para desenvolver versões do modelo ESM usando o framework NeMo, na qual o BioNeMo também é baseado. O projeto, que está programado para ser executado no supercomputador Cambridge-1 da NVIDIA, avançará no trabalho de descoberta de medicamentos da Peptone.

“O framework BioNeMo é uma tecnologia que permite alavancar com eficiência o poder dos LLMs para o design de proteínas orientado por dados dentro do nosso ciclo de design-construção-teste”, disse Andrew Ferguson, cofundador e chefe de computação da Evozyne. “Isso terá um impacto imediato em nosso projeto de novas proteínas funcionais, com aplicações em saúde humana e sustentabilidade”.

“À medida que vemos a adoção cada vez maior de grandes modelos de linguagem no espaço de proteínas, ser capaz de treinar LLMs com eficiência e modular rapidamente arquiteturas de modelos está se tornando extremamente importante”, disse Istvan Redl, líder de machine learning da Peptone, uma startup de biotecnologia no programa NVIDIA Inception. “Acreditamos que esses dois aspectos de engenharia, escalabilidade e experimentação rápida, são exatamente o que o framework da BioNeMo poderia fornecer.”

Inscreva-se para ter acesso antecipado ao serviço NVIDIA BioNeMo LLM ou ao framework BioNeMo. Para experiência prática com o modelo químico MegaMolBART no BioNeMo, solicite um laboratório gratuito do NVIDIA LaunchPad sobre treinamento e implantação de LLMs.

Descubra o que há de mais recente em IA e na área da saúde no GTC, online até quinta-feira, 22 de setembro. O registro é gratuito.

Assista à apresentação de abertura do GTC do fundador e CEO da NVIDIA, Jensen Huang, abaixo: