Cientistas de todos os lugares agora podem acessar o Evo 2, um novo e poderoso modelo base que entende o código genético para todos os domínios da vida. Revelado como o maior modelo de IA disponível publicamente para dados genômicos, ele foi construído na plataforma NVIDIA DGX Cloud em uma colaboração liderada pela organização de pesquisa biomédica sem fins lucrativos Arc Institute e Stanford University.
O Evo 2 está disponível para desenvolvedores globais na plataforma NVIDIA BioNeMo, inclusive como um microsserviço NVIDIA NIM para implantação de IA fácil e segura.
Treinado em um enorme conjunto de dados de quase 9 trilhões de nucleotídeos, as bases do DNA e do RNA, o Evo 2 pode ser usado em aplicações de pesquisa biomolecular, incluindo a previsão da forma e função das proteínas com base em sua sequência genética, identificando novas moléculas para aplicações industriais e de saúde e avaliando como as mutações genéticas afetam sua função.
“O Evo 2 representa um marco importante para a genômica generativa”, disse Patrick Hsu, cofundador e pesquisador principal do Arc Institute e professor assistente de bioengenharia na Universidade da Califórnia, em Berkeley. “Ao avançar nossa compreensão dessas bases fundamentais da vida, podemos buscar soluções na saúde e na ciência ambiental que são inimagináveis hoje.”
O microsserviço NVIDIA NIM para Evo 2 permite que os usuários gerem uma variedade de sequências biológicas, com configurações para ajustar os parâmetros do modelo. Os desenvolvedores interessados em ajustar o Evo 2 em seus conjuntos de dados proprietários podem baixar o modelo por meio do NVIDIA BioNeMo Framework de código aberto, uma coleção de ferramentas de computação acelerada para pesquisa biomolecular.
“Projetar uma nova biologia tem sido tradicionalmente um processo trabalhoso, imprevisível e artesanal”, disse Brian Hie, professor assistente de engenharia química da Universidade de Stanford, membro do corpo docente de ciência de dados da Fundação Dieter Schwarz Stanford e investigador de inovação do Arc Institute. “Com o Evo 2, tornamos o design biológico de sistemas complexos mais acessível aos pesquisadores, permitindo a criação de avanços novos e benéficos em uma fração do tempo que levaria anteriormente.”
Viabilizando Pesquisas Científicas Complexas
Estabelecido em 2021 com US$ 650 milhões de seus doadores fundadores, o Arc Institute capacita os pesquisadores a enfrentar desafios científicos de longo prazo, fornecendo aos cientistas financiamento plurianual, permitindo que os cientistas se concentrem em pesquisas inovadoras em vez de redigir subsídios.
Seus principais pesquisadores recebem espaço de laboratório de última geração e financiamento para mandatos renováveis de oito anos que podem ser realizados simultaneamente com nomeações do corpo docente com um dos parceiros universitários do instituto, que incluem a Universidade de Stanford, a Universidade da Califórnia, Berkeley, e a Universidade da Califórnia, San Francisco.
Ao combinar esse ambiente de pesquisa exclusivo com experiência em computação acelerada e recursos da NVIDIA, os pesquisadores do Arc Institute podem buscar projetos mais complexos, analisar conjuntos de dados maiores e obter resultados mais rapidamente. Seus cientistas estão focados em áreas de doenças, incluindo câncer, disfunção imunológica e neurodegeneração.
A NVIDIA acelerou o projeto Evo 2 dando aos cientistas acesso a 2.000 GPUs NVIDIA H100 por meio da NVIDIA DGX Cloud na AWS. A DGX Cloud fornece acesso de curto prazo a grandes clusters de computação, dando aos pesquisadores a flexibilidade de inovar. A plataforma de IA totalmente gerenciada inclui o NVIDIA BioNeMo, que apresenta software otimizado na forma de microsserviços NVIDIA NIM e os NVIDIA BioNeMo Blueprints.
Os pesquisadores e engenheiros da NVIDIA também colaboraram estreitamente no dimensionamento e otimização da IA.
Aplicações em Ciências Biomoleculares
O Evo 2 pode fornecer informações sobre DNA, RNA e proteínas. Treinado em uma ampla gama de espécies em todos os domínios da vida, incluindo plantas, animais e bactérias, o modelo pode ser aplicado a campos científicos como saúde, biotecnologia agrícola e ciência dos materiais.
O Evo 2 usa uma nova arquitetura de modelo que pode processar longas sequências de informações genéticas, até 1 milhão de tokens. Essa visão ampliada do genoma pode desbloquear a compreensão dos cientistas sobre a conexão entre partes distantes do código genético de um organismo e a mecânica da função celular, expressão gênica e doença.
“Um único gene humano contém milhares de nucleotídeos. Então, para um modelo de IA analisar como esses sistemas biológicos complexos funcionam, ele precisa processar a maior porção possível de uma sequência genética de uma só vez”, disse Hsu.
Na área da saúde e na descoberta de medicamentos, o Evo 2 pode ajudar os pesquisadores a entender quais variantes genéticas estão ligadas a uma doença específica e projetar novas moléculas que visam precisamente essas áreas para tratar a doença. Por exemplo, pesquisadores de Stanford e do Arc Institute descobriram que em testes com BRCA1, um gene associado ao câncer de mama, o Evo 2 poderia prever com 90% de precisão se mutações não reconhecidas anteriormente afetariam a função do gene.
Na agricultura, o modelo pode ajudar a combater a escassez global de alimentos, fornecendo informações sobre a biologia vegetal e ajudando os cientistas a desenvolver variedades de culturas mais resistentes ao clima ou mais densas em nutrientes. E em outros campos científicos, o Evo 2 pode ser aplicado para projetar biocombustíveis ou projetar proteínas que decompõem o petróleo ou o plástico.
“Implantar um modelo como o Evo 2 é como enviar um novo telescópio poderoso para os confins do universo”, disse Dave Burke, diretor de tecnologia da Arc. “Sabemos que há imensas oportunidades de exploração, mas ainda não sabemos o que vamos descobrir.”
Leia mais sobre o Evo 2 no Blog Técnico da NVIDIA e no relatório técnico da Arc.
Consulte o aviso sobre informações sobre produtos de software.