Se o Rei da Suécia quiser ajuda para elaborar seu discurso anual de Natal este ano, ele poderá perguntar ao mesmo modelo de AI que está disponível para seus 10 milhões de súditos.
Como um teste, os pesquisadores fizeram o modelo, chamado GPT-SW3, elaborar uma das mensagens reais. E ele fez um ótimo trabalho, de acordo com Magnus Sahlgren, que lidera a pesquisa em compreensão de linguagem natural na AI Sweden, um consórcio que deu início à jornada do país para a era de machine learning.
“Mais tarde, nosso ministro da digitalização nos visitou e pediu ao modelo que gerasse argumentos para posições políticas, e ele criou alguns muito inteligentes. O ministro entendeu intuitivamente como motivar o modelo a gerar um bom texto”, disse Sahlgren.
Os primeiros sucessos inspiraram o trabalho em uma versão ainda maior e mais poderosa do modelo de linguagem que eles esperam que atenda a qualquer cidadão, empresa ou agência governamental na Escandinávia.
Um Modelo Multilíngue
A versão atual tem 3,6 bilhões de parâmetros e é inteligente o suficiente para fazer algumas coisas legais em sueco. A equipe de Sahlgren pretende treinar um modelo de última geração com impressionantes 175 bilhões de parâmetros que podem lidar com todos os tipos de tarefas de linguagem nos idiomas nórdicos sueco, dinamarquês, norueguês e, espera-se, islandês também.
Por exemplo, uma startup pode usá-lo para gerar automaticamente descrições de produtos para um site de e-commerce com apenas o nome dos produtos. As agências governamentais podem usá-lo para classificar e encaminhar rapidamente perguntas dos cidadãos.
As empresas podem pedir que ele resuma rapidamente relatórios para que possam reagir rapidamente. Os hospitais podem executar versões concentradas do modelo privadamente em seus próprios sistemas para melhorar o atendimento ao paciente.
“Forneceremos um modelo básico como um serviço para todas as tarefas que as pessoas querem resolver”, disse Sahlgren, que trabalha na intersecção da linguagem e do machine learning desde que concluiu seu doutorado em linguística computacional em 2006.
Permissão para Falar Livremente
Cada vez mais, essa capacidade é vista como um recurso estratégico, uma pedra fundamental da soberania digital em um mundo que fala milhares de idiomas em quase 200 países.
A maioria dos serviços de idiomas hoje se concentra no chinês ou inglês, as duas línguas mais faladas do mundo. Eles são geralmente criados na China ou nos EUA e não são gratuitos.
“É importante que tenhamos modelos construídos na Suécia para a Suécia”, disse Sahlgren.
Equipe Pequena, Supersistema
“Somos um país pequeno e uma equipe central de cerca de seis pessoas, mas podemos construir um recurso de última geração como esse para as pessoas usarem”, acrescentou.
Isso porque a Suécia tem um engine poderoso, o BerzeLiUs, um supercomputador de AI de 300 petaflops na Universidade de Linköping. Ele treinou o modelo inicial GPT-SW3 usando apenas 16 dos 60 nós no NVIDIA DGX SuperPOD.
O próximo modelo poderá exercer todos os nós do sistema. Essas tarefas superdimensionadas exigem um super software como o framework NVIDIA NeMo Megatron.
“Ele nos permite dimensionar o treinamento para o supercomputador completo, e tivemos a sorte de ter acesso a especialistas da equipe de desenvolvimento do NeMo. Sem a NVIDIA, teria sido muito mais complicado chegar até aqui”, disse ele.
Um Workflow para Qualquer Idioma
Os engenheiros da NVIDIA criaram uma receita baseada no NeMo e em um processo emergente chamado p-tuning que otimiza modelos enormes rapidamente e é voltado para trabalhar com qualquer linguagem.
Em um teste inicial, um modelo quase dobrou sua precisão depois que os engenheiros da NVIDIA aplicaram as técnicas.
Além disso, é necessário um décimo dos dados, diminuindo a necessidade de dezenas de milhares de discos rotulados manualmente. Isso abre as portas para os usuários ajustarem um modelo com os conjuntos de dados relativamente pequenos e específicos do setor que eles têm em mãos.
“Esperamos inspirar muito empreendedorismo no setor, startups e o público usando nossa tecnologia para desenvolver suas próprias aplicações e serviços”, disse Sahlgren.
Escrevendo o Próximo Capítulo
Enquanto isso, os desenvolvedores da NVIDIA já estão trabalhando em maneiras de melhorar o software facilitador.
Um teste mostra uma grande promessa de treinamento de novos recursos usando conjuntos de dados em inglês amplamente disponíveis em modelos projetados para qualquer idioma. Em outro exemplo, eles estão usando as técnicas de p-tuning em trabalhos de inferência para que os modelos possam aprender rapidamente.
Zenodia Charpy, Arquiteta de Soluções Sênior da NVIDIA de Gotemburgo, compartilha o entusiasmo da equipe AI Sweden que apoia. “Nós apenas começamos a testar métodos novos e melhores para enfrentar esses grandes desafios de linguagem: “há muito mais por vir”, disse ela.
O modelo GPT-SW3 será disponibilizado até o final do ano em um programa de acesso antecipado. Para se inscrever, entre em contato com francisca.hoyer@ai.se.