Gal Dalal quer facilitar o deslocamento para quem trabalha em casa ou no escritório.
O cientista pesquisador sênior da NVIDIA, que faz parte de um laboratório de 10 pessoas em Israel, está usando a AI para reduzir o congestionamento em redes de computadores.
Para quem pilota computadores, esperar uma página carregar (ou pior, ficar com o cursor travado) é tão ruim quanto pegar engarrafamento na sexta-feira. Assim como a hora de pico, isso é causado por uma enxurrada de viajantes lutando para chegar a algum lugar rápido, lotando e, às vezes, colidindo no caminho.
AI no Cruzamento
As redes usam o controle de congestionamento para gerenciar o tráfego digital. É basicamente um conjunto de regras integradas aos adaptadores e switches de rede, mas, à medida que o número de usuários nas redes aumenta, seus conflitos podem se tornar muito complexos de serem antecipados.
A AI promete ser um guarda de trânsito melhor porque pode ver e responder aos padrões à medida que se desenvolvem. É por isso que Dalal está entre os muitos pesquisadores ao redor do mundo que buscam maneiras de tornar as redes mais inteligentes com a aprendizagem por reforço, um tipo de AI que recompensa os modelos quando eles encontram boas soluções.
Mas até agora, ninguém criou uma abordagem prática por várias razões.
Correndo contra o Relógio
As redes precisam ser rápidas e justas para que nenhuma solicitação seja deixada para trás. É um ato de equilíbrio difícil quando nenhum motorista na estrada digital pode ver todo o mapa em constante mudança de outros motoristas e seus destinos pretendidos.
E é uma corrida contra o relógio. Para serem eficazes, as redes precisam responder a situações em cerca de um microssegundo, isso é um milhão de segundos.
Para simplificar o tráfego, a equipe da NVIDIA criou novas técnicas de aprendizagem por reforço inspiradas em AI de games de computador de última geração e as adaptaram ao problema da rede.
Parte da inovação, descrita em um artigo de 2021, foi criar um algoritmo e uma função de recompensa correspondentes para uma rede equilibrada baseada apenas em informações locais disponíveis para fluxos de rede individuais. O algoritmo permitiu que a equipe criasse, treinasse e executasse um modelo de AI em seu sistema NVIDIA DGX.
Um Fator Surpresa
Dalal lembra a reunião em que um colega da NVIDIA, Chen Tessler, mostrou o primeiro gráfico apresentando os resultados do modelo em uma rede simulada de data center InfiniBand.
“Nós ficamos encantados com o ótimo funcionamento”, disse Dalal, que escreveu sua tese de doutorado sobre aprendizagem por reforço na Technion, a prestigiada universidade técnica de Israel.
“O que foi especialmente gratificante foi que treinamos o modelo em apenas 32 fluxos de rede e ele generalizou muito bem o que aprendeu para gerenciar mais de 8.000 fluxos com todos os tipos de situações complexas. Assim, a máquina estava fazendo um trabalho muito melhor do que as regras predefinidas”, acrescentou.
Na verdade, o algoritmo apresentou um rendimento pelo menos 1,5 vez melhor e uma latência 4 vezes menor do que a melhor técnica baseada em regras.
Desde seu lançamento, o artigo recebeu elogios como uma aplicação do mundo real que mostra o potencial da aprendizagem por reforço.
Processando a AI na Rede
O próximo grande passo, ainda um trabalho em andamento, é projetar uma versão do modelo de AI que possa ser executado em velocidades de microssegundos usando os recursos limitados de computação e memória na rede. Dalal descreveu dois caminhos futuros.
Sua equipe está colaborando com os engenheiros projetando DPUs NVIDIA BlueField para otimizar os modelos de AI para o hardware do futuro. As DPUs BlueField visam executar dentro da rede um conjunto cada vez maior de tarefas de comunicação, liberando tarefas de CPUs sobrecarregadas.
Separadamente, a equipe de Dalal está trazendo a essência de seu modelo de AI para uma técnica de machine learning chamada boosting trees, uma série de decisões sim/não que é quase tão inteligente, mas muito mais simples de executar. A equipe pretende apresentar seus trabalhos ainda neste ano em uma forma que possa ser imediatamente adotada para aliviar o tráfego da rede.
Uma Solução de Tráfego Oportuna
Até o momento, Dalal aplicou a aprendizagem por reforço a tudo, desde veículos autônomos até o resfriamento de data centers e o design de chips. Quando a NVIDIA adquiriu a Mellanox em abril de 2020, o pesquisador israelense da NVIDIA começou a colaborar com seus novos colegas do grupo de redes.
“Fazia sentido aplicar nossos algoritmos de AI ao trabalho das equipes de controle do congestionamento e agora, dois anos depois, a pesquisa está mais madura”, disse ele.
E veio em boa hora. Relatos recentes de aumentos de dois dígitos no tráfego de carros de Israel desde os tempos pré-pandemia poderiam encorajar mais pessoas a trabalhar em casa, aumentando o congestionamento da rede.
Felizmente, um guarda de trânsito de AI está a caminho.