Paul Edwards está usando a AI para modernizar uma atividade realizada há décadas, a concessão de crédito.
Edwards começou sua carreira como doutor em ecologia numérica, modelando o comportamento animal. Ele deixou o mundo acadêmico para ser o líder de um grupo de cientistas de dados no Scotiabank, sediado em Toronto, analisando como o machine learning pode melhorar a previsão de risco de crédito.
A equipe acredita que o machine learning pode aumentar os lucros do banco e ajudar mais pessoas a receberem os empréstimos que precisam. O banco pretende compartilhar algumas de suas técnicas no final deste ano, na esperança de promover avanços no setor.
Scores Calculados com AI em Vez do Lápis
As novas ferramentas estão sendo aplicadas aos scores que surgiram nos anos 1950, quando os cálculos eram efetuados com lápis e papel. Os agentes de crédito analisavam as respostas dos candidatos a perguntas padrão e, se o resultado atingisse um limite definido no score, o banco concederia o empréstimo.
Com o surgimento de computadores, os bancos substituíram os scores físicos por versões digitais. Anos atrás, eles estabeleceram uma espécie de modelo estatístico chamado “regressão logística do peso de evidência”, que é muito usado hoje.
Uma das maiores vantagens dos scores é a transparência. Os bancos podem explicar os critérios de empréstimo para os clientes e os órgãos reguladores com facilidade. É por isso que, na área de risco de crédito, o score é o padrão ouro para modelos explicáveis.
“Até poderíamos desenvolver modelos de machine learning maiores, mais complexos e mais precisos do que o score, mas, em algum momento, eles acabariam ficando muito difíceis de explicar para o chefe ou um agente regulador”, afirmou Edwards.
Modelos de Machine Learning Economizam Milhões
Por isso, a equipe procurou formas alternativas de criar scores com machine learning e encontrou uma técnica chamada boosting.
Eles começaram com apenas uma pergunta em um score e adicionaram uma pergunta por vez. Pararam quando viram que, se adicionassem outra pergunta, o score ficaria muito difícil de explicar ou não ficaria melhor.
Os resultados eram tão fáceis de explicar quanto os modelos tradicionais de peso de evidência, mas, de modo geral, eram mais precisos.
“Já usamos o boosting para criar alguns modelos de decisão e identificamos uma pequena vantagem em relação ao peso de evidência. Uma pequena porcentagem na escala dos requerentes do banco significa milhões de dólares”, explicou.
XGBoost Atualizado para Acelerar os Scorecards
A equipe de Edwards viu o potencial da aceleração dos modelos de boosting, porque eles usavam uma biblioteca popular chamada XGBoost em um sistema NVIDIA DGX. O código acelerado por GPU era bem rápido, mas não tinha um recurso necessário para gerar scores, uma ferramenta fundamental para manter a simplicidade dos modelos.
Griffin Lacey, Cientista de Dados Sênior da NVIDIA, colaborou com seus colegas para identificar e adicionar o recurso. Agora, ele faz parte do XGBoost no RAPIDS, um conjunto de bibliotecas de software de código aberto para examinar dados em GPUs.
Com esse novo recurso, o banco consegue gerar scores seis vezes mais rápido com uma única GPU, uma tarefa que exigia 24 CPUs, estabelecendo um novo padrão para o banco. “No final, vimos que era uma solução bem simples, mas nunca teríamos chegado a ela sozinhos”, comentou Edwards.
As GPUs aceleram o cálculo dos scores digitais e ajudam o banco a aumentar a precisão sem diminuir a explicabilidade dos modelos. “Com modelos mais precisos, poderemos conceder o crédito necessário às pessoas que precisam dele”, afirmou Edwards.
Usando o RAPIDS na Era da AI
No futuro, Edwards pretende usar os avanços em machine learning das últimas décadas para revolucionar o mundo dos scores. Em uma parceria com a NVIDIA, por exemplo, sua equipe está desenvolvendo um conjunto de ferramentas Python para scores com recursos já conhecidos pelos cientistas de dados de hoje.
“A equipe da NVIDIA está nos ajudando a integrar as ferramentas do RAPIDS a nosso workflow para desenvolver scores garantindo vantagens modernas, como compatibilidade com Python, ajuste de hiperparâmetros e aceleração de GPU”, revelou Edwards. “Acreditamos que, em seis meses, teremos um código e receitas exemplares para compartilhar com os outros”, acrescentou.
Com essas ferramentas, os bancos poderão modernizar e acelerar o workflow de criação de scores, acabando com a prática atual de ajustar e testar parâmetros manualmente. Com o ajuste de hiperparâmetros acelerado por GPU, por exemplo, os desenvolvedores podem deixar o computador testando 100 mil parâmetros de modelos enquanto saem para almoçar.
Com um arsenal muito maior de ferramentas, os bancos poderão selecionar scores de acordo com a precisão, a simplicidade, a estabilidade ou uma junção desses fatores. Assim, poderão garantir que as decisões de empréstimo sejam transparentes e confiáveis e que os clientes responsáveis recebam os empréstimos de que precisam.
Aprofundando-se no Deep Learning
Os cientistas de dados do Scotiabank usam um sistema DGX para realizar vários experimentos ao mesmo tempo. Eles ajustam as pontuações, colocam o XGBoost para funcionar e aprimoram os modelos de deep learning. “Nosso workflow melhorou muito”, afirmou Edwards.
“De certa forma, a maior vantagem que ganhamos ao comprar o sistema foi o apoio que recebemos”, complementou, destacando os novos e futuros recursos do RAPIDS.
Em longo prazo, a equipe espera usar o deep learning para identificar as necessidades dos clientes mais rapidamente. Um modelo experimental de cálculo do risco de crédito já mostrou um desempenho 20% superior em relação ao score mais moderno, graças ao deep learning.
Além disso, há um novo tipo de modelo gerativo capaz de criar conjuntos de dados sintéticos que simulam dados bancários reais, mas sem nenhuma informação específica sobre os clientes. Essa novidade pode abrir as portas para colaborações que acelerarão o ritmo da inovação.
O trabalho da equipe de Edwards mostra o interesse e a adoção cada vez maiores da AI nas transações bancárias.
“Uma pesquisa anual realizada no ano passado com departamentos de risco de crédito mostrou que todos os bancos participantes estavam começando a usar machine learning, e muitos já estavam usando a tecnologia diariamente”, concluiu Edwards.