O UK Biobank está ampliando o acesso dos cientistas a dados e análises genômicas de alta qualidade, disponibilizando seu enorme conjunto de dados no cloud junto com as ferramentas de análise aceleradas por GPU da NVIDIA.
Usado por mais de 25.000 pesquisadores registrados em todo o mundo, o UK Biobank é um banco de dados biomédico de grande escala e recurso de pesquisa com conjuntos de dados genéticos não identificados, juntamente com imagens médicas e dados de registros de saúde, de mais de 500.000 participantes em todo o Reino Unido.
O Regeneron Genetics Center, o centro de sequenciamento de alto rendimento do líder em biotecnologia Regeneron, recentemente se uniu ao UK Biobank para sequenciar e analisar os exomas, todas as porções codificadoras de proteínas do genoma, de todos os participantes do biobanco.
A equipe da Regeneron usou o NVIDIA Clara Parabricks, um pacote de software para análise genômica secundária de dados de sequenciamento de próxima geração, durante o processo de sequenciamento do exoma.
O UK Biobank lançou 450.000 desses exomas para acesso por pesquisadores aprovados e agora está fornecendo aos cientistas seis meses de acesso gratuito ao Clara Parabricks por meio de sua plataforma de análise de pesquisa baseada no cloud. Foi desenvolvido pela plataforma de bioinformática DNAnexus, que permite aos cientistas usar Clara Parabricks rodando em GPUs NVIDIA no cloud da AWS.
“Como demonstrado pela Regeneron, a aceleração de GPU com Clara Parabricks atinge os rendimentos, velocidade e reprodutibilidade necessários ao processar conjuntos de dados genômicos em escala”, disse o Dr. Mark Effingham, vice-presidente executivo do UK Biobank. “Existem vários grupos de pesquisa no Reino Unido que estavam pressionando para que essas ferramentas aceleradas estivessem disponíveis em nossa plataforma para uso com nosso extenso conjunto de dados.”
Pesquisa Regeneron Exome Acelerada por Clara Parabricks
Os pesquisadores da Regeneron usaram o pipeline DeepVariant Germline do NVIDIA Clara Parabricks para executar suas análises com um modelo específico para o workflow do centro genético.
Seus pesquisadores identificaram 12 milhões de variantes de codificação e centenas de genes associados a características relacionadas à saúde. Certos genes foram associados ao aumento do risco de doenças hepáticas e oculares, e outros foram associados ao menor risco de diabetes e asma.
O conjunto exclusivo de ferramentas que os pesquisadores usaram para detecção de variantes de alta qualidade está disponível para usuários registrados no UK Biobank por meio da Research Analysis Platform. Essa capacidade permitirá aos cientistas harmonizar seus próprios dados de exoma com dados de exoma sequenciados do UK Biobank, executando o mesmo pipeline de bioinformática usado para gerar o conjunto de dados de referência inicial.
Plataforma Baseada no Cloud Melhora a Equidade de Acesso
Pesquisadores que decifram os códigos genéticos de humanos, e dos vírus e bactérias que infectam humanos, muitas vezes podem ser limitados pelos recursos computacionais disponíveis para eles.
O UK Biobank está democratizando o acesso, tornando seu conjunto de dados aberto a cientistas de todo o mundo, com foco em ampliar ainda mais o uso por pesquisadores em início de carreira e aqueles em países de baixa e média renda. Em vez de os pesquisadores precisarem baixar esse enorme conjunto de dados para usar em seus próprios recursos de computação, eles podem acessar a plataforma no cloud do UK Biobank por meio de um navegador da web.
“Estávamos sendo contatados por pesquisadores e médicos que queriam acessar os dados do UK Biobank, mas estavam lutando com o acesso à computação básica necessária para trabalhar com dados de escala relativamente pequena”, disse Effingham. “A plataforma baseada no cloud fornece acesso à tecnologia de classe mundial necessária para sequenciamento de exoma em larga escala e análise de sequenciamento de genoma completo.”
Os pesquisadores que usam a plataforma pagam apenas pelo custo computacional de suas análises e pelo armazenamento de novos dados gerados a partir do conjunto de dados em escala de petabytes do biobanco, disse Effingham.
O uso de Clara Parabricks no DNAnexus ajuda a reduzir o tempo e o custo dessa análise genômica, fornecendo uma análise completa do exoma que levaria quase uma hora de computação em uma máquina de 32 vCPU em menos de cinco minutos, além de reduzir o custo em aproximadamente 40%.
Sequenciamento de Exoma Fornece Insights para Medicina de Precisão
Para pesquisadores que estudam ligações entre genética e doenças, o sequenciamento de exomas é uma ferramenta crítica e o conjunto de dados do UK Biobank inclui quase meio milhão de exomas participantes para trabalhar.
O exoma é aproximadamente 1,5 por cento do genoma humano e consiste em todos os genes conhecidos e seus elementos reguladores. Ao estudar a variação genética em exomas em uma população grande e diversificada, os cientistas podem entender melhor a estrutura da população, ajudando os pesquisadores a abordar questões evolutivas e descrever como o genoma funciona.
Com um conjunto de dados tão grande quanto o do UK Biobank, também é possível identificar as variantes genéticas específicas associadas a doenças hereditárias, incluindo doenças cardiovasculares, doenças neurodegenerativas e alguns tipos de câncer.
O sequenciamento do exoma pode até esclarecer possíveis fatores genéticos que podem aumentar ou diminuir o risco de uma doença grave por infecção por COVID-19, disse Effingham. À medida que a pandemia continua, o UK Biobank está adicionando dados de casos de COVID, status de vacinação, dados de imagem e resultados de pacientes para milhares de participantes ao seu banco de dados.
Comece com o NVIDIA Clara Parabricks na Plataforma de Análise de Pesquisa do UK Biobank desenvolvida pela DNAnexus. Saiba mais sobre o projeto de sequenciamento de exoma registrando-se para este webinar, que acontece no dia 17 de fevereiro às 13h, horário de Brasília.
Assine as notícias sobre saúde da NVIDIA aqui.
A imagem principal mostra as instalações de freezer no UK Biobank, onde as amostras dos participantes são armazenadas. Imagem cortesia do UK Biobank.