Entender o comportamento do consumidor de usuários em larga escala é um desafio fundamental para as instituições financeiras modernas. Quando bilhões de transações são geradas por milhões de usuários, a capacidade de interpretar esses dados está diretamente relacionada ao sucesso ou ao fracasso das recomendações de produtos, à detecção de fraudes, à avaliação de riscos e à experiência do usuário.
No passado, o setor financeiro contava com métodos tradicionais de aprendizado de máquina baseados em dados tabulares. Nesse modelo, os engenheiros convertiam manualmente os dados brutos das transações em "recursos" estruturados, como níveis de renda, categorias de gastos ou número de transações e, em seguida, alimentavam os modelos preditivos com esses recursos. Embora essa abordagem seja eficaz, ela tem duas falhas fatais: em primeiro lugar, a construção manual de recursos é demorada e frágil e depende muito da experiência de especialistas no assunto; em segundo lugar, não é muito versátil, pois os recursos criados para o controle de risco de crédito são difíceis de usar para a detecção de fraudes, o que leva à duplicação de esforços em diferentes equipes.
Para superar essas limitações.Nubank
Recorrendo a uma técnica que está transformando os campos de processamento de linguagem natural e visão computacional: Foundation Models. Em vez de depender de recursos artificiais, os Foundation Models aprendem automaticamente "embeddings" genéricos diretamente de grandes quantidades de dados brutos de transações por meio de aprendizado autossupervisionado. Esses embeddings capturam padrões profundos de comportamento do usuário de forma compacta e expressiva.
Nubank
O objetivo é processar trilhões de transações e extrair uma representação comum do usuário que possa capacitar uma variedade de tarefas posteriores, como modelagem de crédito, recomendações personalizadas, detecção de anomalias e muito mais. Dessa forma, eles esperam unificar os padrões de modelagem, reduzir a engenharia de recursos repetitivos e melhorar o desempenho preditivo em todas as áreas.
Este artigo se aprofundará nos Nubank
O conjunto de tecnologias usadas para criar e implantar esses modelos básicos traça o ciclo de vida completo, desde a representação de dados e a arquitetura do modelo até o pré-treinamento, o ajuste fino e a integração com sistemas tabulares tradicionais.
Arquitetura geral do sistema do Nubank
Nubank
O sistema de modelo básico foi projetado para extrair representações genéricas do usuário a partir de dados financeiros maciços, e essas representações, chamadas de "embeddings", serão posteriormente amplamente usadas em cenários comerciais, como pontuação de crédito, recomendação de produtos e detecção de fraudes. Toda a arquitetura é baseada em Transformer
O modelo está centrado em vários estágios principais.
1 - Ingestão de dados de transação
O ponto de partida do sistema é a coleta de dados brutos de transações de cada cliente, incluindo informações como valores de transações, registros de data e hora e descrições de comerciantes. A quantidade de dados é enorme, abrangendo trilhões de transações de mais de 100 milhões de usuários. Cada usuário tem uma sequência cronológica de transações, o que é fundamental para que o modelo compreenda a evolução do comportamento de consumo do usuário.
2 - Interface incorporada
Os dados brutos da transação precisam ser convertidos em Transformer
Um formato que o modelo entende.Nubank
É usada uma estratégia de codificação híbrida, em que cada transação é tratada como uma sequência estruturada de tokens (Token).
Cada transação é dividida em vários elementos-chave:
- cifrãoToken de classificação: Um token de classificação é usado para indicar se uma transação é positiva (por exemplo, depósito) ou negativa (por exemplo, consumo).
- caixa eletrônicoValores de transação são quantificados e divididos em "caixas" predefinidas para reduzir a variação dos valores.
- token de dataData: Informações de data, como mês, dia da semana e número, também são convertidas em tokens separados.
- Descrição do comercianteUse divisores de texto padrão (por exemplo
Byte Pair Encoding
) divide o nome do comerciante em vários tokens de subpalavra.
Essa sequência tokenizada preserva a estrutura e a semântica dos dados originais e a compactação da sequência de entrada. Isso é importante porque a Transformer
O custo computacional do mecanismo de atenção média é proporcional ao quadrado do comprimento da entrada.
3 - Backbone do transformador
A sequência de transações tokenizadas é alimentada no Transformer
Modelos.Nubank
Experimentei uma variedade de Transformer
variantes para otimizar o desempenho. Esses modelos são treinados por meio de aprendizado autossupervisionado sem nenhum dado rotulado manualmente. Eles abordam dois tipos principais de tarefas:
- Modelagem de linguagem mascarada (MLM)Ocultação: ocultar uma parte dos tokens em uma sequência de transações permite que o modelo preveja o que está sendo ocultado.
- Previsão do próximo token (NTP)Permite que o modelo aprenda a prever o próximo token na sequência.
Transformer
é uma incorporação de usuário de comprimento fixo, geralmente obtida do estado oculto do último token.
4 - Treinamento autossupervisionado
O modelo é treinado em dados de transações maciças e não rotuladas. Como não é necessária nenhuma rotulagem manual, o sistema pode explorar todo o histórico de transações de cada usuário. Ao prever constantemente as partes ausentes ou futuras da sequência de transações de um usuário, o modelo aprende de forma autônoma padrões valiosos de comportamento financeiro, como ciclos de consumo, pagamentos recorrentes e transações incomuns. Como um exemplo simplificado, o modelo vê "café, almoço, depois..." e tenta adivinhar que o "jantar" é o próximo.
O tamanho dos dados de treinamento e dos parâmetros do modelo é fundamental. À medida que o tamanho do modelo e a janela de contexto aumentam, o desempenho melhora significativamente. Por exemplo, a mudança de um modelo MLM básico para um causal grande com uma camada de atenção otimizada Transformer
o desempenho da tarefa downstream melhora em mais de 7 pontos percentuais.
5 - Ajuste fino e integração downstream
Após a conclusão do pré-treinamento do modelo básico, ele pode ser ajustado para tarefas específicas. Isso geralmente é feito no Transformer
Um cabeçalho de previsão é adicionado na parte superior e treinado usando dados rotulados. Por exemplo, em uma tarefa de previsão de inadimplência de crédito, rótulos de inadimplência conhecidos seriam usados para ajustar o modelo.
Para integração com sistemas existentes.Nubank
Fusão de incorporação de usuário gerada por modelo com recursos de formulário projetados manualmente. Essa fusão é obtida de duas maneiras:
- Fusão tardia: Uso
LightGBM
e outros modelos para combinar dados incorporados e tabulares, mas os dois são treinados separadamente. - Fusão de articulaçõesUso de redes neurais profundas (em particular
DCNv2
arquitetura) iráTransformer
e modelos de dados tabulares são treinados juntos em um sistema de ponta a ponta.
6 - Biblioteca de modelos centralizada
Para tornar toda a arquitetura disponível na empresaNubank
Foi criada uma plataforma centralizada de IA. A plataforma armazena modelos básicos pré-treinados e oferece um processo de ajuste fino padronizado. As equipes internas podem acessar diretamente esses modelos, incorporar suas próprias características de negócios e implementar versões ajustadas sem precisar treinar do zero. Esse gerenciamento centralizado acelera o processo de desenvolvimento e reduz a redundância de recursos.
Converter dados de transações em sequências legíveis por modelos
por causa de Transformer
Há dois desafios principais quando o modelo prepara os dados da transação:
- Tipos de dados mistosEm uma única transação, há campos estruturados (por exemplo, valor e data) e campos de texto (por exemplo, nome do comerciante), que são difíceis de representar uniformemente em texto simples ou em um formato puramente estruturado.
- Problemas de base alta e partida a frioA diversidade de transações é extremamente alta, com novas combinações decorrentes de diferentes comerciantes, locais ou valores. Se uma ID separada for atribuída a cada transação exclusiva, o léxico se tornará anormalmente grande, dificultando o treinamento do modelo e impossibilitando-o de lidar com novas transações que não foram vistas durante o período de treinamento (ou seja, o problema do início a frio).
Para enfrentar esses desafios.Nubank
Várias estratégias de conversão de transações em sequências de tokens são exploradas.
Opção 1: representação baseada em ID
Essa abordagem atribui um ID numérico a cada transação exclusiva, semelhante ao que é feito nos sistemas de recomendação. Embora simples e eficiente, essa abordagem tem desvantagens óbvias: o número de combinações de transações exclusivas é muito grande para que o espaço de ID seja gerenciável; ao mesmo tempo, o modelo não é capaz de lidar com novas transações que nunca foram vistas antes.
Programa II: O texto é tudo
Esse método trata cada transação como um trecho de texto em linguagem natural, por exemplo, "description=NETFLIX amount=32.40 date=2023-05-12". Essa representação é muito versátil e pode lidar com transações em qualquer formato. No entanto, é extremamente cara do ponto de vista computacional. A conversão de campos estruturados em sequências de texto longas cria um grande número de tokens desnecessários, resultando em um Transformer
de atenção, os custos de computação disparam e o treinamento fica mais lento.
Opção 3: Esquema de codificação híbrido (escolha do Nubank)
Para equilibrar versatilidade e eficiência, oNubank
Foi desenvolvida uma estratégia de codificação híbrida. Ela decompõe cada transação em um conjunto compacto de tokens de campo discretos, incluindo o cifrão, a posição do dólar, a data e a descrição do comerciante após o corte de subpalavras.
Essa abordagem híbrida preserva as principais informações estruturadas em um formato compacto com a capacidade de generalização para lidar com novas entradas e controlar com eficiência os custos computacionais. Quando cada transação é tokenizada dessa forma, o histórico completo de transações de um usuário pode ser reunido em uma longa sequência a ser usada como um Transformer
A entrada.
Treinamento do modelo básico
Nubank
Os engenheiros da empresa usam o aprendizado autossupervisionado para treinar o modelo, o que significa que o modelo aprende diretamente com a sequência de negociações, sem qualquer rotulagem humana. Essa abordagem permite que o sistema aproveite grandes quantidades de dados históricos de transações de milhões de usuários.
São usados dois tipos principais de objetivos de treinamento:
- Previsão do próximo token (NTP)O modelo prevê o próximo token na sequência com base no token anterior. Isso, assim como um modelo de linguagem que prevê a próxima palavra em uma frase, ensina o modelo a entender o fluxo e a estrutura do comportamento de negociação.
- Modelagem de linguagem mascarada (MLM)Escondendo aleatoriamente alguns tokens em uma sequência e treinando o modelo para adivinhar os tokens "cobertos". Isso força o modelo a entender o contexto e aprender relações mais profundas entre os tokens, como a ligação entre o dia da semana e o tipo de compra, ou o nome do comerciante e o valor da transação.
Fusão de incorporação de sequência com dados tabulares
Embora os modelos subjacentes baseados em sequências de transações possam capturar padrões comportamentais complexos, muitos sistemas financeiros ainda dependem de dados tabulares estruturados, como informações de bureaus de crédito ou perfis de usuários. Para utilizar totalmente essas duas fontes de dados, elas devem ser fundidas de forma eficaz.
Pós-fusão (método de linha de base)
Na pós-fusão, os embeddings "congelados" produzidos pelo modelo de base pré-treinado são combinados com os recursos de formulário e, em seguida, alimentados no LightGBM
talvez XGBoost
entre outros modelos tradicionais de aprendizado de máquina. Essa abordagem é simples de implementar, mas como os modelos subjacentes são treinados de forma independente, seus embeddings gerados não podem interagir de forma significativa com os dados tabulares durante o treinamento, limitando o limite superior do desempenho geral.
Fusão da articulação (método recomendado)
Para superar essa limitação, oNubank
Foi desenvolvida uma arquitetura de fusão conjunta. A abordagem treina simultaneamente em um sistema de ponta a ponta Transformer
e modelos que processam dados tabulares. Dessa forma, o modelo aprende a extrair informações das sequências de transações que podem complementar os dados tabulares, e os dois componentes são otimizados em conjunto para o mesmo objetivo de previsão.
Nubank
opção DCNv2
(Deep & Cross Network v2) para processar os recursos da tabela.DCNv2
é uma rede neural profunda projetada especificamente para entradas estruturadas que captura com eficiência as interações cruzadas entre os recursos.
Nubank
A busca por modelos fundamentais representa um grande avanço na forma como as instituições financeiras entendem e atendem seus clientes. Ao abandonar a engenharia manual de recursos e adotar o aprendizado autossupervisionado com base em dados brutos de transações, aNubank
É construído um sistema de modelagem extensível e expressivo.
A chave para esse sucesso será a forma como o sistema se encaixa em sua infraestrutura de IA mais ampla.Nubank
Em vez de criar modelos isolados para cada cenário, foi desenvolvida uma plataforma de IA centralizada. As equipes podem escolher entre dois modelos, dependendo de suas necessidades: um modelo que usa apenas embeddings de sequência de transações e um modelo híbrido que combina embeddings com recursos de formulário estruturado usando uma arquitetura de fusão federada.
Essa flexibilidade é fundamental. Algumas equipes podem incorporar a incorporação do usuário em seu modelo de formulários robusto existente; outras podem depender exclusivamente de novas tarefas baseadas no Transformer
do modelo de sequência. A arquitetura também é compatível com novas fontes de dados futuras, como padrões de uso de aplicativos ou chats de suporte ao cliente. Não se trata apenas de uma prova de conceito técnico, mas de uma solução de nível de produção que proporciona benefícios mensuráveis nas principais tarefas de previsão financeira.