”Pinte-me um Quadro”: A Área de Pesquisa da NVIDIA Mostra Que o GauGAN AI Art Demo Agora Responde a Palavras

GauGAN2 usa um modelo de deep learning que transforma uma simples frase escrita, ou sentença, em uma obra-prima fotorrealística.
por Isha Salian

Uma imagem que vale mais que mil palavras agora leva apenas três ou quatro palavras para ser criada, graças ao GauGAN2, a versão mais recente da demonstração de pintura AI extremamente popular da Área de Pesquisa da NVIDIA.

O modelo de deep learning por trás do GauGAN permite que qualquer pessoa canalize sua imaginação para obras-primas fotorrealistas, e é mais fácil do que nunca. Basta digitar uma frase como “pôr do sol na praia” e a AI gera a cena em tempo real. Adicione um adjetivo adicional como “pôr do sol em uma praia rochosa” ou troque “pôr do sol” para “tarde” ou “dia chuvoso” e o modelo, baseado em redes adversárias geradoras, instantaneamente modifica a imagem.

Com o pressionar de um botão, os usuários podem gerar um mapa de segmentação, um contorno de alto nível que mostra a localização dos objetos na cena. A partir daí, eles podem mudar para o desenho, ajustando a cena com esboços ásperos usando rótulos como céu, árvore, rocha e rio, permitindo que o pincel inteligente incorpore esses rabiscos em imagens impressionantes.

O novo recurso de texto para imagem do GauGAN2 agora pode ser experimentado nas Demonstrações da NVIDIA AI, onde os visitantes do site podem experimentar a AI por meio das demonstrações mais recentes da Área de Pesquisa da NVIDIA. Com a versatilidade de prompts de texto e esboços, o GauGAN2 permite que os usuários criem e personalizem cenas mais rapidamente e com controle mais preciso.

Uma AI de Poucas Palavras

O GauGAN2 combina mapeamento de segmentação, pintura interna e geração de texto para imagem em um único modelo, tornando-o uma ferramenta poderosa para criar arte fotorrealística com uma mistura de palavras e desenhos.

A demonstração é uma das primeiras a combinar várias modalidades (texto, segmentação semântica, esboço e estilo) em um único framework GAN. Isso torna mais rápido e fácil transformar a visão de um artista em uma imagem gerada por AI de alta qualidade.

Em vez de precisar desenhar cada elemento de uma cena imaginada, os usuários podem inserir uma frase breve para gerar rapidamente os principais recursos e o tema de uma imagem, como uma cordilheira coberta de neve. Esse ponto de partida pode ser personalizado com esboços para tornar uma montanha específica mais alta ou adicionar algumas árvores no primeiro plano ou nuvens no céu.

Não se trata apenas de criar imagens realistas; os artistas também podem usar a demonstração para retratar paisagens de outro mundo.

Imagine, por exemplo, recriar uma paisagem do icônico planeta Tatooine na franquia Star Wars, que tem dois sóis. Tudo o que é necessário é o texto “sol das colinas do deserto” para criar um ponto de partida, após o qual os usuários podem esboçar rapidamente em um segundo sol.

É um processo iterativo, onde cada palavra que o usuário digita na caixa de texto adiciona mais à imagem criada por AI.

O modelo de AI por trás do GauGAN2 foi treinado em 10 milhões de imagens de paisagem de alta qualidade usando o supercomputador NVIDIA Selene, um sistema NVIDIA DGX SuperPOD que está entre os 10 supercomputadores mais poderosos do mundo. Os pesquisadores usaram uma rede neural que aprende a conexão entre as palavras e os elementos visuais a que correspondem, como “inverno”, “neblina” ou “arco-íris”.

Em comparação com modelos de última geração especificamente para aplicações de texto para imagem ou segmentação de mapa para imagem, a rede neural por trás do GauGAN2 produz uma maior variedade e qualidade de imagens.

A demonstração de pesquisa GauGAN2 ilustra as possibilidades futuras de poderosas ferramentas de geração de imagens para artistas. Um exemplo é a aplicação NVIDIA Canvas, que se baseia na tecnologia GauGAN e está disponível para download por qualquer pessoa com uma GPU NVIDIA RTX.

A Área de Pesquisa da NVIDIA tem mais de 200 cientistas em todo o mundo, com foco em áreas como AI, visão computacional, carros autônomos, robótica e gráficos. Saiba mais sobre o trabalho deles.