Encruzilhada: Como a AI Ajuda Veículos Autônomos a Entender Cruzamentos

por Neda Cvijetic

Nota do editor: esta é a publicação mais atual da nossa série NVIDIA DRIVE Labs. Com a série, estamos observando com o olhar da engenharia os desafios individuais de veículos autônomos e como a equipe do software NVIDIA DRIVE AV está lidando com eles. Acompanhe nossas publicações mais antigas aqui.

Cruzamentos são características comuns da estrada, sejam eles encontros de quatro vias em um bairro ou avenidas de várias pistas com muitos semáforos em uma região movimentada.

Dada a frequência, a variedade e o risco associados a cruzamentos (mais de 50% dos acidentes graves nos EUA ocorrem neles ou perto deles), é fundamental que um veículo autônomo possa transitar entre cruzamentos com precisão.

Lidar com cruzamentos apresenta um conjunto complexo de desafios para carros autônomos. Isso inclui a capacidade de parar com precisão em uma faixa de pedestres, processar e interpretar corretamente as regras de trânsito em vários cenários, além de determinar e executar o caminho correto para uma variedade de manobras, como seguir reto ou fazer uma curva no cruzamento.

Na série DRIVE Labs, demonstramos como detectamos cruzamentos, semáforos e sinais de trânsito com a WaitNet DNN, e como classificamos o estado do semáforo e o tipo de sinalização com as DNNs LightNet e a SignNet. Neste episódio, vamos mais longe para mostrar como a NVIDIA usa a AI para perceber a variedade de estruturas de cruzamentos que um veículo autônomo poderia encontrar diariamente.

Criação Manual de Mapas

Métodos anteriores contavam com mapas de semântica 3D de alta definição de um cruzamento e da área ao redor para entender a estrutura dele e criar caminhos para navegar com segurança.

A rotulagem humana está muito envolvida na criação desse tipo de mapa, codificando manualmente todos os recursos de estrutura de cruzamentos potencialmente relevantes, como o local onde estão as linhas de entrada/saída e os divisores, onde estão semáforos e sinais de trânsito, além da quantidade de pistas existentes em cada direção. Quanto mais complexo for o cenário do cruzamento, mais o mapa precisaria ser alterado manualmente.

Uma limitação prática importante dessa abordagem é a falta de escalabilidade. Todos os cruzamentos do mundo precisariam ser rotulados manualmente antes que um veículo autônomo pudesse transitar por eles, o que criaria grandes dificuldades de coleta de dados, rotulagem e custo.

Outro desafio são as condições temporárias, como zonas de construção. Devido à natureza temporária desses cenários, inclui-los e retirá-los de um mapa pode ser altamente complexo.

No entanto, nossa abordagem é análoga à forma como os seres humanos dirigem. Os humanos usam a percepção ao vivo em vez de mapas para entender a estrutura dos cruzamentos e transitar entre eles.

Uma Abordagem Estruturada para Cruzamentos

Nosso algoritmo amplia os recursos da DNN WaitNet que preveem a estrutura do cruzamento como uma coleção de pontos que chamamos de “junções”, análogas às articulações do corpo humano. Assim como a ação dos membros humanos é obtida com as conexões entre articulações, em nossa abordagem, a ação de um veículo autônomo pode ser obtida ao conectar as articulações da estrutura do cruzamento e transformá-las em um caminho para o veículo.

A figura 1 ilustra a previsão da estrutura do cruzamento usando nosso método baseado em DNN. Como mostrado, podemos detectar e classificar recursos de estrutura em diferentes classes, como pontos de entrada e saída do cruzamento para o carro em primeira pessoa e para outros veículos na cena, bem como o início e o fim das faixas de pedestres.

Figura 1. Previsão de estrutura de cruzamento. Vermelho = linha de espera de entrada do cruzamento para o carro em primeira pessoa; amarelo = linha de espera de entrada do cruzamento para outros carros; verde = linha de saída do cruzamento. Nesta figura, as linhas verdes indicam todas as maneiras possíveis de o carro sair do cruzamento pela pista à esquerda: o veículo poderia continuar em frente, dobrar à esquerda ou fazer uma curva em U.

Em vez de segmentar os contornos de uma imagem, nossa DNN é capaz de diferenciar os pontos de entrada e saída do cruzamento para diferentes pistas. Outro benefício importante de nossa abordagem é que a previsão de estrutura do cruzamento é robusta para oclusões e é capaz de prever linhas pintadas e implícitas.

Os pontos-chave do cruzamento da figura 1 também podem ser conectados a caminhos para transitar no cruzamento. Ao conectar os pontos de entrada e saída, é possível prever os caminhos e trajetórias que representam os movimentos do carro em primeira pessoa.

Nossa abordagem de percepção dinâmica permite escalabilidade para lidar com vários tipos de cruzamentos sem a necessidade de rotular manualmente cada um deles. Ela também pode ser combinada com informações de mapas em que os dados de alta qualidade estão disponíveis para criar diversidade e redundância necessárias para lidar com cruzamentos complexos.

Nosso recurso de percepção de estrutura de cruzamentos baseada em DNN estará disponível para desenvolvedores na próxima versão do software DRIVE como uma função adicional da DNN WaitNet. Para saber mais sobre nossos modelos de DNN, acesse a página do DRIVE Perception.