O que é Visão Computacional?

A visão computacional é possibilitada por redes neurais convolucionais que são capazes de usar imagens e vídeos para realizar a segmentação, a classificação e a detecção em várias aplicações.
por Scott Martin

Hoje, a visão computacional é tão sofisticada que os dias de torcedores gritando com árbitros podem ser coisa do passado.

Isso se deve aos avanços na classificação de imagens e no processamento paralelo, que possibilitam que os computadores vejam uma bola voando a 150 km/h. Esses recursos, juntamente com a detecção de imagens para ajudar a localizar as bolas, são ferramentas potentes para os árbitros que são difíceis de contestar.

Porém, a visão computacional não é usada só nos esportes.

O que é Visão Computacional?

“Visão computacional” é um termo amplo que se refere às tarefas realizadas com redes neurais profundas para conferir a capacidade da visão humana a softwares, geralmente executados em GPUs NVIDIA. Ele pode abranger o treinamento específico de redes neurais para a segmentação, a classificação e a detecção com dados de imagens e vídeos.

A Major League Baseball está testando chamadas assistidas por AI na home base com visão computacional. Identificar balls e strikes de bolas que podem levar apenas 0,4 segundo para chegar ao plate não é nada fácil para os olhos humanos. Essa tarefa pode ser realizada de modo mais eficiente com a transmissão de câmeras executada em redes de imagens e GPUs NVIDIA capazes de processar decisões em frações de segundos a uma velocidade de mais de 60 frames por segundo.

A Hawk-Eye, sediada em Londres, está colocando esse processo em prática nos esportes. O monitoramento de bolas com GPUs NVIDIA e o software SMART da empresa são usados em mais de 20 esportes, como beisebol, basquete, tênis, futebol, críquete, hóquei e na NASCAR.

Porém, a visão computacional é capaz de muito mais do que tomar decisões esportivas.

Como a Visão Computacional É Usada Fora dos Esportes?

A visão computacional pode executar muito mais tarefas. Desenvolvida com redes neurais convolucionais, ela pode realizar a segmentação, a classificação e a detecção em inúmeras aplicações.

As aplicações são infinitas. Com as mudanças no setor de visão computacional, ela está sendo usada em esportes, na indústria automotiva, na agricultura, no varejo, em transações bancárias, na construção, em seguros e muito mais, ou seja, há um grande potencial em jogo.

3 Coisas que Você Precisa Saber Sobre a Visão Computacional

  • Segmentação: a segmentação de imagens é a classificação de pixels em uma categoria específica, como carros, estradas ou pedestres. Ela é mais usada em softwares de veículos autônomos, como o pacote de softwares NVIDIA DRIVE, para mostrar estradas, carros e pessoas. É basicamente uma espécie de técnica de visualização que facilita a compreensão das tarefas realizadas pelos computadores.
  • Classificação: a classificação de imagens é usada para identificar os objetos presentes em uma imagem. As redes neurais podem ser treinadas para reconhecer cachorros ou gatos, por exemplo, e muitas outras coisas com um alto grau de precisão se houver dados suficientes.
  • Detecção: com a detecção de imagens, os computadores conseguem localizar objetos existentes no ambiente. São criadas caixas retangulares delimitadoras, como na metade inferior da imagem acima, que envolvem totalmente o objeto. Um detector pode ser treinado para ver onde os carros ou as pessoas estão em uma imagem, como nas caixas numeradas acima.

O que Você Precisa Saber: Segmentação, Classificação e Detecção

SegmentaçãoClassificaçãoDetecção
Ideal para delinear objetos É um gato ou um cachorro? Onde o objeto se encontra no ambiente?
Usada em veículos autônomos Classifica com precisão Reconhece objetos para garantir a segurança

 

O Deep Learning Institute da NVIDIA oferece cursos como Introdução à Segmentação de Imagens e Conceitos Básicos de Deep Learning para Visão Computacional.