O Guarda de Trânsito do Data Center: AI Libera Congestionamento Digital

Os pesquisadores da NVIDIA criaram um modelo de AI que pode resolver engarrafamentos em redes de computadores e, em breve, chegará a um data center perto de você.
por Rick Merritt

Gal Dalal quer facilitar o deslocamento para quem trabalha em casa ou no escritório.

O cientista pesquisador sênior da NVIDIA, que faz parte de um laboratório de 10 pessoas em Israel, está usando a AI para reduzir o congestionamento em redes de computadores.

Para quem pilota computadores, esperar uma página carregar (ou pior, ficar com o cursor travado) é tão ruim quanto pegar engarrafamento na sexta-feira. Assim como a hora de pico, isso é causado por uma enxurrada de viajantes lutando para chegar a algum lugar rápido, lotando e, às vezes, colidindo no caminho.

AI no Cruzamento

As redes usam o controle de congestionamento para gerenciar o tráfego digital. É basicamente um conjunto de regras integradas aos adaptadores e switches de rede, mas, à medida que o número de usuários nas redes aumenta, seus conflitos podem se tornar muito complexos de serem antecipados.

A AI promete ser um guarda de trânsito melhor porque pode ver e responder aos padrões à medida que se desenvolvem. É por isso que Dalal está entre os muitos pesquisadores ao redor do mundo que buscam maneiras de tornar as redes mais inteligentes com a aprendizagem por reforço, um tipo de AI que recompensa os modelos quando eles encontram boas soluções.

Mas até agora, ninguém criou uma abordagem prática por várias razões.

Correndo contra o Relógio

As redes precisam ser rápidas e justas para que nenhuma solicitação seja deixada para trás. É um ato de equilíbrio difícil quando nenhum motorista na estrada digital pode ver todo o mapa em constante mudança de outros motoristas e seus destinos pretendidos.

E é uma corrida contra o relógio. Para serem eficazes, as redes precisam responder a situações em cerca de um microssegundo, isso é um milhão de segundos.

Para simplificar o tráfego, a equipe da NVIDIA criou novas técnicas de aprendizagem por reforço inspiradas em AI de games de computador de última geração e as adaptaram ao problema da rede.

Parte da inovação, descrita em um artigo de 2021, foi criar um algoritmo e uma função de recompensa correspondentes para uma rede equilibrada baseada apenas em informações locais disponíveis para fluxos de rede individuais. O algoritmo permitiu que a equipe criasse, treinasse e executasse um modelo de AI em seu sistema NVIDIA DGX.

Um Fator Surpresa

Dalal lembra a reunião em que um colega da NVIDIA, Chen Tessler, mostrou o primeiro gráfico apresentando os resultados do modelo em uma rede simulada de data center InfiniBand.

“Nós ficamos encantados com o ótimo funcionamento”, disse Dalal, que escreveu sua tese de doutorado sobre aprendizagem por reforço na Technion, a prestigiada universidade técnica de Israel.

“O que foi especialmente gratificante foi que treinamos o modelo em apenas 32 fluxos de rede e ele generalizou muito bem o que aprendeu para gerenciar mais de 8.000 fluxos com todos os tipos de situações complexas. Assim, a máquina estava fazendo um trabalho muito melhor do que as regras predefinidas”, acrescentou.

Reinforcement learning for congestion control
A aprendizagem por reforço (roxo) superou todos os algoritmos de controle de congestionamento baseados em regras nos testes da NVIDIA.

Na verdade, o algoritmo apresentou um rendimento pelo menos 1,5 vez melhor e uma latência 4 vezes menor do que a melhor técnica baseada em regras.

Desde seu lançamento, o artigo recebeu elogios como uma aplicação do mundo real que mostra o potencial da aprendizagem por reforço.

Processando a AI na Rede

O próximo grande passo, ainda um trabalho em andamento, é projetar uma versão do modelo de AI que possa ser executado em velocidades de microssegundos usando os recursos limitados de computação e memória na rede. Dalal descreveu dois caminhos futuros.

Sua equipe está colaborando com os engenheiros projetando DPUs NVIDIA BlueField para otimizar os modelos de AI para o hardware do futuro. As DPUs BlueField visam executar dentro da rede um conjunto cada vez maior de tarefas de comunicação, liberando tarefas de CPUs sobrecarregadas.

Separadamente, a equipe de Dalal está trazendo a essência de seu modelo de AI para uma técnica de machine learning chamada boosting trees, uma série de decisões sim/não que é quase tão inteligente, mas muito mais simples de executar. A equipe pretende apresentar seus trabalhos ainda neste ano em uma forma que possa ser imediatamente adotada para aliviar o tráfego da rede.

Uma Solução de Tráfego Oportuna

Até o momento, Dalal aplicou a aprendizagem por reforço a tudo, desde veículos autônomos até o resfriamento de data centers e o design de chips. Quando a NVIDIA adquiriu a Mellanox em abril de 2020, o pesquisador israelense da NVIDIA começou a colaborar com seus novos colegas do grupo de redes.

“Fazia sentido aplicar nossos algoritmos de AI ao trabalho das equipes de controle do congestionamento e agora, dois anos depois, a pesquisa está mais madura”, disse ele.

E veio em boa hora. Relatos recentes de aumentos de dois dígitos no tráfego de carros de Israel desde os tempos pré-pandemia poderiam encorajar mais pessoas a trabalhar em casa, aumentando o congestionamento da rede.

Felizmente, um guarda de trânsito de AI está a caminho.