Quando raios fora do normal provocaram grandes incêndios em todo o norte da Califórnia no ano passado, isso também despertou esforços de cientistas de dados para melhorar as previsões de incêndios.
Um esforço veio da SpaceML, uma iniciativa do Frontier Development Lab, que é um laboratório de AI de pesquisa da NASA em parceria com o Instituto SETI. Dedicada à pesquisa de código aberto, a comunidade de desenvolvedores da SpaceML está criando modelos de reconhecimento de imagens para ajudar a avançar o estudo de riscos de desastres naturais, incluindo incêndios florestais.
A SpaceML usa computação acelerada em petabytes de dados para o estudo das ciências da Terra e do espaço, com o objetivo de promover projetos para pesquisadores da NASA. Ela reúne cientistas de dados e cientistas cidadãos voluntários em projetos que se baseiam nos dados do sistema de informação e dados do sistema de observação da Terra da NASA. As informações de satélite vieram de imagens gravadas da Terra, 197 milhões de quilômetros quadrados, diariamente ao longo de 20 anos, fornecendo 40 petabytes de dados não rotulados.
“Temos sorte de estar vivendo em uma era em que uma quantidade sem precedentes de dados está disponível. É como uma mina de ouro, e tudo o que precisamos criar são as ferramentas para explorar todo o seu potencial”, disse Anirudh Koul, líder de machine learning e mentor da SpaceML.
Animado para Fazer a Diferença
Koul, que trabalha como cientista de dados no Pinterest, afirmou que os incêndios florestais na Califórnia danificaram áreas próximas a sua casa no último outono. O residente de San Jose e ávido trilheiro disse que eles queimaram alguns de seus pontos de caminhada favoritos no Monte Hamilton, nas proximidades. Seu primeiro impulso foi tornar-se um bombeiro voluntário, mas percebeu que sua maior contribuição poderia ser por meio de seu conhecimento de ciência de dados.
Koul gosta trabalhos que ajudam os outros. Antes de se voluntariar na SpaceML, ele liderou os esforços de AI e pesquisa na startup Aira, que usa óculos de realidade aumentada para ditar para deficientes visuais o que está à sua frente com a identificação de imagens pareada ao processamento de linguagem natural.
A Aira, membro do programa acelerador NVIDIA Inception para startups de AI e ciência de dados, foi adquirida no ano passado.
Pesquisa Interdisciplinar Inclusiva
O trabalho na SpaceML combina voluntários sem formação em AI com profissionais do setor de tecnologia como mentores de projetos. Seu objetivo é criar classificadores de imagens a partir de imagens de satélite da Terra para detectar sinais de desastres naturais.
Os grupos assumem projetos de três semanas que podem examinar tudo, desde incêndios e furacões até inundações e vazamentos de petróleo. Eles se reúnem mensalmente com cientistas da NASA com expertise do domínio em ciências para fazer avaliações.
Os colaboradores da SpaceML variam de estudantes do ensino médio a estudantes de pós-graduação e muito mais. O trabalho incluiu participantes da Nigéria, México, Coreia, Alemanha e Singapura.
Os membros da equipe da SpaceML para esse projeto incluem Rudy Venguswamy, Tarun Narayanan, Ajay Krishnan e Jeanessa Patterson. Os mentores são Koul, Meher Kasam e Siddha Ganju, cientista de dados da NVIDIA.
Montagem de um Kit de Ferramentas da SpaceML
A SpaceML fornece uma coleção de ferramentas de machine learning. Os grupos a usam para trabalhar em tarefas como aprendizado autossupervisionado usando SimCLR, pesquisa de imagens em várias resoluções e rotulagem de dados, entre outras. A facilidade de uso é fundamental para o conjunto de ferramentas.
Entre seu pipeline de ferramentas de construção de modelos, os colaboradores da SpaceML contam com a NVIDIA DALI para um rápido pré-processamento de dados. A DALI oferece ajuda com dados não estruturados para alimentar diretamente as redes neurais convolucionais para desenvolver classificadores.
“Usando a DALI, conseguimos fazer isso relativamente rápido”, disse Venguswamy.
As descobertas da SpaceML foram publicadas no Committee on Space Research (COSPAR) para que os pesquisadores possam replicar sua fórmula.
Classificadores para Big Data
O grupo desenvolveu o Curator para treinar classificadores com um humano no circuito, exigindo menos exemplos rotulados por causa de seu aprendizado autossupervisionado. A interface do Curator é como o Tinder, explica Koul, para que os novatos possam deslizar para a esquerda os exemplos de imagens rejeitados para seus classificadores ou deslizar para a direita aqueles que serão usados no pipeline de treinamento.
O processo permite coletar rapidamente um pequeno conjunto de imagens rotuladas e usá-las no conjunto GIBS Worldview das imagens de satélite para encontrar todas as imagens do mundo que são correspondentes, criando um enorme conjunto de dados para pesquisas científicas posteriores.
“A ideia de todo esse pipeline era que poderíamos treinar um modelo de aprendizado autossupervisionado em relação a toda a Terra, o que se trata de muitos dados”, disse Venguswamy.
As CNNs são executadas em instâncias de GPUs NVIDIA no cloud.
Crédito da foto: Emil Jarfelt, Unsplash