Com um novo campus universitário na região e um aeroporto em construção, a cidade de Liverpool, localizada a 27 km ao sudoeste de Sydney, está crescendo rapidamente.
Estima-se que mais de 30 mil pessoas se desloquem diariamente para o centro financeiro. Liverpool precisava saber o possível efeito do crescimento no trânsito e na circulação de pedestres, ciclistas e veículos.
A cidade já conta com câmeras para monitorar a segurança dos habitantes. Cada uma captura diversos vídeos e dados que, devido às rígidas normas de privacidade, são analisados, na maioria das vezes, somente após o relato de um incidente.
O desafio da cidade era transformar esse enorme conjunto de dados em informações que pudessem ajudá-la a funcionar com mais eficiência, comportar o fluxo diário de trabalhadores e garantir a qualidade de vida dos habitantes, sem afetar a privacidade dos cidadãos.
A fim de cumprir esse objetivo, a cidade firmou uma parceria com o Digital Living Lab (DLL) da Universidade de Wollongong. Situado no instituto SMART Infrastrucutre Facility da universidade, o DLL desenvolveu uma plataforma chamada Versatile Intelligent Video Analytics (VIVA). Ela disponibiliza dados para os responsáveis pelo sistema de câmeras de segurança para que acessem dados em tempo real e em conformidade com as normas de privacidade para tomar decisões mais bem informadas.
A VIVA foi projetada para transformar a infraestrutura existente em dispositivos de computação de edge com a AI mais atual. Os algoritmos de deep learning de última geração da plataforma são desenvolvidos na plataforma NVIDIA Metropolis do DLL. Os modelos de deep learning de análise de vídeo são treinados com transfer learning para que se adaptem aos casos de uso, otimizados com o software NVIDIA TensorRT e implementados em computadores NVIDIA Jetson com AI de edge.
“Desenvolvemos a VIVA para processar transmissões de vídeo o mais próximo possível da fonte, que é a câmera”, explicou Johan Barthelemy, Professor do SMART Infrastructure Facility da Universidade de Wollongong. “Depois que o frame é analisado com uma rede neural profunda, o resultado é transmitido e o frame atual é descartado.”
O descarte de frames garante a privacidade dos cidadãos, pois nenhuma imagem é transmitida. Ele também reduz a largura de banda exigida.
Além de ser usada nas ruas de cidades como Liverpool, a VIVA foi adaptada para diversas aplicações, como a identificação e o monitoramento de animais silvestres; a detecção de obstruções de bueiros para o controle de águas pluviais e alertas de enchentes-relâmpago e o monitoramento de pessoas com o uso de câmeras térmicas para identificar o comportamento de circulação dos cidadãos durante ondas de calor. Ela também pode ser usada para distinguir entre bombeiros em resgate e as demais pessoas em um edifício, ajudando a identificar aquelas que precisam de socorro.
Entendendo os Padrões do Trânsito
A colaboração de pesquisa entre o SMART, a cidade de Liverpool e os setores parceiros visa a melhorar a eficiência, a eficácia e a acessibilidade de uma série de serviços e instituições governamentais.
O projeto também tem o objetivo de identificar os destinos dos pedestres, as rotas preferenciais e as áreas congestionadas. Além disso, busca monitorar as rotas usadas por ciclistas e descobrir formas de melhorar o uso de bicicletas. No caso dos veículos, também procura entender padrões de movimentação e de trânsito, os locais onde param e onde são estacionados.
Antes, para entender a mobilidade de uma cidade, era preciso ter vários sensores fixos e de alto custo, segundo Barthelemy. Era necessário usar modelos diferentes para identificar tipos específicos de trânsito e realizar processos manuais para entender como interagiam.
Com a visão computacional do NVIDIA Jetson TX2 no edge, a plataforma VIVA consegue identificar os diferentes tipos de trânsito e capturar a trajetória e a velocidade de cada um. Os dados são coletados com a rede de câmeras de segurança da cidade, acabando com a necessidade de investir em outros sensores.
Os padrões de movimentação e pontos de congestionamento são identificados e previstos para ajudar a melhorar a organização e a conectividade das ruas e vias, a fiscalização do trânsito e a sinalização urbana. Os dados foram fundamentais para ajudar Liverpool a planejar o design urbano e a fiscalização do trânsito do centro financeiro.
Aplicação de Machine Learning Criado com Tecnologias NVIDIA
O instituto SMART treinou as aplicações de machine learning na plataforma VIVA para Liverpool em quatro workstations com diversas GPUs NVIDIA TITAN e em seis workstations com GPUs NVIDIA RTX para gerar dados sintéticos e realizar experimentos.
Além de usar bancos de dados abertos como o OpenImage, o COCO e o Pascal VOC para o treinamento, o DLL criou dados sintéticos com uma aplicação interna baseada na Unity Engine. Com os dados sintéticos, o sistema pode prever diversos cenários menos comuns, como tempestades ou massas de ciclistas.
“Com a geração de dados sintéticos, conseguimos desenvolver mais de 35 mil imagens por cenário desejado sob diferentes condições meteorológicas, condições de iluminação e horários do dia”, revelou Barthelemy. “A geração de dados sintéticos usa ray tracing para melhorar o realismo das imagens geradas.”
A inferência é realizada com o NVIDIA Jetson Nano, o NVIDIA Jetson TX2 e o NVIDIA Jetson Xavier NX, dependendo do caso de uso e do processamento exigido.