O primeiro projeto de biologia computacional de Tanya Berger-Wolf começou como uma aposta com uma colega: que ela poderia construir um modelo de IA capaz de identificar zebras individuais mais rápido do que um zoólogo.
Ela venceu.
Agora, a diretora do Translational Data Analytics Institute e professora na Ohio State University, Berger-Wolf está enfrentando todo o reino animal com o BioCLIP 2, um modelo base baseado em biologia treinado com o maior e mais diversificado conjunto de dados de organismos até hoje. O modelo foi apresentado na conferência de pesquisa em IA do NeurIPS de 2025.
O BioCLIP 2 vai além de extrair informações de imagens. Ele pode distinguir características das espécies e determinar relações entre espécies e intraespécies. Por exemplo, o modelo organizou os tentilhões de Darwin pelo tamanho do bico, sem ensinar o conceito de tamanho, mostrado na imagem abaixo.

Essas capacidades permitirão que pesquisadores usem o modelo tanto como uma enciclopédia biológica, uma poderosa plataforma científica quanto uma ferramenta de pesquisa interativa com capacidades de inferência para ajudar a enfrentar um problema contínuo na biologia da conservação: a deficiência de dados para certas espécies.
“Para espécies icônicas como as orcas, não temos dados suficientes para determinar o tamanho da população e, para os ursos polares, a população é desconhecida”, disse Berger-Wolf. “Se não temos dados dessas espécies, que esperança os besouros e fungos têm?”
Modelos de IA podem aprimorar os esforços de conservação existentes para espécies ameaçadas e seus habitats ao preencher essa lacuna de deficiências de dados.
O BioCLIP 2 está disponível sob uma licença de código aberto no Hugging Face, onde foi feito seu download mais de 45.000 vezes apenas em outubro passado. Este artigo se baseia no primeiro modelo BioCLIP, lançado há mais de um ano, que também foi treinado com GPUs NVIDIA e recebeu o prêmio de Melhor Artigo Estudantil na conferência Computer Vision and Pattern Recognition (CVPR).
O artigo do BioCLIP 2 foi apresentado no NeurIPS, que aconteceu de 30 de novembro a 5 de dezembro na Cidade do México, e de 2 a 7 de dezembro em San Diego.
Construindo o Maior Baralho de Cartões Biológicos do Mundo
O projeto começou com a compilação de um enorme conjunto de dados, TREEOFLIFE-200M, que compreende 214 milhões de imagens de organismos abrangendo mais de 925.000 classes taxonômicas, desde macacos até larvas de farinha e magnólias.

Para curar essa vasta quantidade de dados, a equipe de Berger-Wolf no Imageomics Institute colaborou com o Smithsonian Institution, especialistas de várias universidades e outras organizações relacionadas à área.
Esses pesquisadores buscaram descobrir o que aconteceria se treinassem um modelo de biologia com mais dados do que nunca.
A equipe queria ver se era possível ir “além da ciência dos organismos individuais para a ciência dos ecossistemas”, disse Berger-Wolf.
Após 10 dias de treinamento em 32 GPUs NVIDIA H100, o BioCLIP 2 demonstrou habilidades inovadoras, como distinguir entre animais adultos e juvenis, bem como entre animais machos e fêmeas dentro da espécie, sem que esses conceitos fossem explicitamente ensinados.
Também fez associações entre espécies relacionadas, como entender como as zebras se relacionam com outros equídes.
“Este modelo aprende que, em todos os níveis da taxonomia, todas essas imagens de zebras têm um rótulo de gênero específico, e dessas imagens de equídos (incluindo zebras, cavalos e burros) elas têm uma característica familiar particular e assim por diante”, disse ela. “Ele aprende a hierarquia sem nunca ser informado, apenas por meio dessas associações.”
O modelo pode até determinar a saúde de um organismo com base em dados de treinamento. Por exemplo, separou folhas saudáveis de maçã ou mirtilo das folhas doentes, além de reconhecer diferentes tipos de doenças ao gerar o gráfico de dispersão abaixo.

A equipe da Berger-Wolf usou um cluster de 64 GPUs NVIDIA Tensor Core para acelerar o treinamento dos modelos, além de GPUs individuais Tensor Core para inferência.” Modelos base como o BioCLIP não seriam possíveis sem a computação acelerada da NVIDIA”, disse Berger-Wolf.
Gêmeos Digitais da Vida Selvagem: O Futuro do Estudo das Relações Entre Ecossistemas
O próximo esforço dos pesquisadores é desenvolver um gêmeo digital interativo baseado na vida selvagem que possa ser usado para visualizar e simular interações ecológicas entre espécies, bem como suas formas de se envolver com o meio ambiente.
O objetivo é fornecer uma forma segura e fácil de estudar as relações entre organismos que ocorrem naturalmente na natureza, minimizando o impacto e a perturbação nos ecossistemas.
“O gêmeo digital nos permite visualizar as interações entre espécies e colocá-las em contexto, além de jogar cenários hipotéticos e testar nossos modelos sem destruir o ambiente real, criando a pegada mais leve possível”, disse Berger-Wolf.
O gêmeo digital dará aos cientistas a oportunidade de explorar os pontos de vista das espécies que estão estudando dentro do ambiente simulado, abrindo possibilidades infinitas para pesquisas ecológicas mais complexas e precisas.
Eventualmente, versões dessa tecnologia poderiam até ser implantadas para uso público, como por meio de plataformas interativas em zoológicos. As pessoas podiam explorar, visualizar e aprender sobre o ambiente natural e suas muitas espécies a partir de pontos de vista totalmente novos.
“Fico arrepiado só de imaginar aquele cenário de uma criança entrando no zoológico e pensando, uau, isso é o que você veria se fosse outra zebra daquele bando, ou se fosse a aranhinha sentada naquele arranhador”, disse Berger-Wolf.
Saiba mais sobre o BioCLIP 2.
