Posição atual:fig. início » Tutoriais práticos de IA

Como o Nubank analisa dados de transações de 100 milhões de usuários usando um modelo básico

2025-07-23

1.2 K

Entender o comportamento do consumidor de usuários em larga escala é um desafio fundamental para as instituições financeiras modernas. Quando bilhões de transações são geradas por milhões de usuários, a capacidade de interpretar esses dados está diretamente relacionada ao sucesso ou ao fracasso das recomendações de produtos, à detecção de fraudes, à avaliação de riscos e à experiência do usuário.

No passado, o setor financeiro contava com métodos tradicionais de aprendizado de máquina baseados em dados tabulares. Nesse modelo, os engenheiros convertiam manualmente os dados brutos das transações em "recursos" estruturados, como níveis de renda, categorias de gastos ou número de transações e, em seguida, alimentavam os modelos preditivos com esses recursos. Embora essa abordagem seja eficaz, ela tem duas falhas fatais: em primeiro lugar, a construção manual de recursos é demorada e frágil e depende muito da experiência dos especialistas no assunto; em segundo lugar, não é muito versátil, pois os recursos criados para o controle de risco de crédito são difíceis de usar para a detecção de fraudes, o que leva à duplicação de esforços em diferentes equipes.

Para superar essas limitações.Nubank Recorrendo a uma técnica que está transformando os campos de processamento de linguagem natural e visão computacional: Foundation Models. Em vez de depender de recursos artificiais, os Foundation Models aprendem automaticamente Embeddings genéricos diretamente de grandes quantidades de dados transacionais brutos por meio de aprendizado autossupervisionado. Esses embeddings capturam padrões profundos de comportamento do usuário de forma compacta e expressiva.

Nubank O objetivo é processar trilhões de transações e extrair uma representação comum do usuário que possa capacitar uma variedade de tarefas posteriores, como modelagem de crédito, recomendações personalizadas, detecção de anomalias e muito mais. Dessa forma, eles esperam unificar os padrões de modelagem, reduzir a engenharia de recursos repetitivos e melhorar o desempenho preditivo em todas as áreas.

Este artigo se aprofundará nos Nubank O conjunto de tecnologias usadas para criar e implantar esses modelos básicos traça o ciclo de vida completo, desde a representação de dados e a arquitetura do modelo até o pré-treinamento, o ajuste fino e a integração com sistemas tabulares tradicionais.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Arquitetura geral do sistema do Nubank

Nubank O sistema de modelo básico foi projetado para extrair representações genéricas do usuário a partir de dados financeiros maciços, e essas representações, chamadas de "embeddings", serão posteriormente amplamente usadas em cenários comerciais, como pontuação de crédito, recomendação de produtos e detecção de fraudes. Toda a arquitetura é baseada em Transformer O modelo está centrado em vários estágios principais.

1 - Ingestão de dados de transação

O ponto de partida do sistema é a coleta de dados brutos de transações de cada cliente, incluindo informações como valores de transações, registros de data e hora e descrições de comerciantes. A quantidade de dados é enorme, abrangendo trilhões de transações de mais de 100 milhões de usuários. Cada usuário tem uma sequência cronológica de transações, o que é fundamental para que o modelo compreenda a evolução do comportamento de consumo do usuário.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

2 - Interface incorporada

Os dados brutos da transação precisam ser convertidos em Transformer Um formato que o modelo entende.Nubank É usada uma estratégia de codificação híbrida, em que cada transação é tratada como uma sequência estruturada de tokens (Token).

Cada transação é dividida em vários elementos-chave:

cifrãoToken de classificação: Um token de classificação é usado para indicar se uma transação é positiva (por exemplo, depósito) ou negativa (por exemplo, consumo).
caixa eletrônicoValores de transação são quantificados e divididos em "caixas" predefinidas para reduzir a variação dos valores.
token de dataData: Informações de data, como mês, dia da semana e número, também são convertidas em tokens separados.
Descrição do comercianteUse divisores de texto padrão (por exemplo Byte Pair Encoding) divide o nome do comerciante em vários tokens de subpalavra.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Essa sequência tokenizada preserva a estrutura e a semântica dos dados originais e a compactação da sequência de entrada. Isso é importante porque a Transformer O custo computacional do mecanismo de atenção média é proporcional ao quadrado do comprimento da entrada.

3 - Backbone do transformador

A sequência de transações tokenizadas é alimentada no Transformer Modelos.Nubank Experimentei uma variedade de Transformer variantes para otimizar o desempenho. Esses modelos são treinados por meio de aprendizado autossupervisionado sem nenhum dado rotulado manualmente. Eles abordam dois tipos principais de tarefas:

Modelagem de linguagem mascarada (MLM)Ocultação: ocultar uma parte dos tokens em uma sequência de transações permite que o modelo preveja o que está sendo ocultado.
Previsão do próximo token (NTP)Permite que o modelo aprenda a prever o próximo token na sequência.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Transformer é uma incorporação de usuário de comprimento fixo, geralmente obtida do estado oculto do último token.

4 - Treinamento autossupervisionado

O modelo é treinado em dados de transações maciças e não rotuladas. Como não é necessária nenhuma rotulagem manual, o sistema pode explorar todo o histórico de transações de cada usuário. Ao prever constantemente as partes ausentes ou futuras da sequência de transações de um usuário, o modelo aprende de forma autônoma padrões valiosos de comportamento financeiro, como ciclos de consumo, pagamentos recorrentes e transações incomuns. Como um exemplo simplificado, o modelo vê "café, almoço, depois..." e tenta adivinhar que o "jantar" é o próximo.

O tamanho dos dados de treinamento e dos parâmetros do modelo é fundamental. À medida que o tamanho do modelo e a janela de contexto aumentam, o desempenho melhora significativamente. Por exemplo, a mudança de um modelo MLM básico para um causal grande com uma camada de atenção otimizada Transformer o desempenho da tarefa downstream melhora em mais de 7 pontos percentuais.

5 - Ajuste fino e integração downstream

Após a conclusão do pré-treinamento do modelo básico, ele pode ser ajustado para tarefas específicas. Isso geralmente é feito no Transformer Um cabeçalho de previsão é adicionado na parte superior e treinado usando dados rotulados. Por exemplo, em uma tarefa de previsão de inadimplência de crédito, rótulos de inadimplência conhecidos seriam usados para ajustar o modelo.

Para integração com sistemas existentes.Nubank Fusão de incorporação de usuário gerada por modelo com recursos de formulário projetados manualmente. Essa fusão é obtida de duas maneiras:

Fusão tardia: Uso LightGBM e outros modelos para combinar dados incorporados e tabulares, mas os dois são treinados separadamente.
Fusão de articulaçõesUso de redes neurais profundas (em particular DCNv2 arquitetura) irá Transformer e modelos de dados tabulares são treinados juntos em um sistema de ponta a ponta.

6 - Biblioteca de modelos centralizada

Para tornar toda a arquitetura disponível na empresaNubank Foi criada uma plataforma centralizada de IA. A plataforma armazena modelos básicos pré-treinados e oferece um processo de ajuste fino padronizado. As equipes internas podem acessar diretamente esses modelos, incorporar suas próprias características de negócios e implementar versões ajustadas sem precisar treinar do zero. Esse gerenciamento centralizado acelera o processo de desenvolvimento e reduz a redundância de recursos.

Converter dados de transações em sequências legíveis por modelos

为 Transformer Há dois desafios principais quando o modelo prepara os dados da transação:

Tipos de dados mistosEm uma única transação, há campos estruturados (por exemplo, valor e data) e campos de texto (por exemplo, nome do comerciante), que são difíceis de representar uniformemente em texto simples ou em um formato puramente estruturado.
Problemas de base alta e partida a frioA diversidade de transações é extremamente alta, com novas combinações decorrentes de diferentes comerciantes, locais ou valores. Se uma ID separada for atribuída a cada transação exclusiva, o léxico se tornará anormalmente grande, dificultando o treinamento do modelo e impossibilitando-o de lidar com novas transações que não foram vistas durante o período de treinamento (ou seja, o problema do início a frio).

Para enfrentar esses desafios.Nubank Várias estratégias de conversão de transações em sequências de tokens são exploradas.

Opção 1: representação baseada em ID

Essa abordagem atribui um ID numérico a cada transação exclusiva, semelhante ao que é feito nos sistemas de recomendação. Embora simples e eficiente, essa abordagem tem desvantagens óbvias: o número de combinações de transações exclusivas é muito grande para que o espaço de ID seja gerenciável; ao mesmo tempo, o modelo não é capaz de lidar com novas transações que nunca foram vistas antes.

Programa II: O texto é tudo

Esse método trata cada transação como um trecho de texto em linguagem natural, por exemplo, "description=NETFLIX amount=32.40 date=2023-05-12". Essa representação é muito versátil e pode lidar com transações em qualquer formato. No entanto, é extremamente cara do ponto de vista computacional. A conversão de campos estruturados em sequências de texto longas cria um grande número de tokens desnecessários, resultando em um Transformer de atenção, os custos de computação disparam e o treinamento fica mais lento.

Opção 3: Esquema de codificação híbrido (escolha do Nubank)

Para equilibrar versatilidade e eficiência, oNubank Foi desenvolvida uma estratégia de codificação híbrida. Ela decompõe cada transação em um conjunto compacto de tokens de campo discretos, incluindo o sinal de valor, a subcaixa de valor, a data e a descrição do comerciante após o corte de subpalavras.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Essa abordagem híbrida preserva as principais informações estruturadas em um formato compacto com a capacidade de generalização para lidar com novas entradas e controlar com eficiência os custos computacionais. Quando cada transação é tokenizada dessa forma, o histórico completo de transações de um usuário pode ser reunido em uma longa sequência a ser usada como um Transformer A entrada.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Treinamento do modelo básico

Nubank Os engenheiros da empresa usam o aprendizado autossupervisionado para treinar o modelo, o que significa que o modelo aprende diretamente com a sequência de negociações, sem qualquer rotulagem humana. Essa abordagem permite que o sistema aproveite grandes quantidades de dados históricos de transações de milhões de usuários.

São usados dois tipos principais de objetivos de treinamento:

Previsão do próximo token (NTP)O modelo prevê o próximo token na sequência com base no token anterior. Isso, assim como um modelo de linguagem que prevê a próxima palavra em uma frase, ensina o modelo a entender o fluxo e a estrutura do comportamento de negociação.
Modelagem de linguagem mascarada (MLM)Escondendo aleatoriamente alguns tokens em uma sequência e treinando o modelo para adivinhar os tokens "cobertos". Isso força o modelo a entender o contexto e aprender relações mais profundas entre os tokens, como a ligação entre o dia da semana e o tipo de compra, ou o nome do comerciante e o valor da transação.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Fusão de incorporação de sequência com dados tabulares

Embora os modelos subjacentes baseados em sequências de transações possam capturar padrões comportamentais complexos, muitos sistemas financeiros ainda dependem de dados tabulares estruturados, como informações de bureaus de crédito ou perfis de usuários. Para utilizar totalmente essas duas fontes de dados, elas devem ser fundidas de forma eficaz.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Pós-fusão (método de linha de base)

Na pós-fusão, os embeddings "congelados" gerados pelo modelo de base pré-treinado são combinados com os recursos de formulário e, em seguida, alimentados no LightGBM 或 XGBoost entre outros modelos tradicionais de aprendizado de máquina. Essa abordagem é simples de implementar, mas como os modelos subjacentes são treinados de forma independente, seus embeddings gerados não podem interagir de forma significativa com os dados tabulares durante o treinamento, limitando o limite superior do desempenho geral.

Fusão da articulação (método recomendado)

Para superar essa limitação, oNubank Foi desenvolvida uma arquitetura de fusão conjunta. A abordagem treina simultaneamente em um sistema de ponta a ponta Transformer e modelos que processam dados tabulares. Dessa forma, o modelo aprende a extrair informações das sequências de transações que podem complementar os dados tabulares, e os dois componentes são otimizados em conjunto para o mesmo objetivo de previsão.

Nubank opção DCNv2 (Deep & Cross Network v2) para processar os recursos da tabela.DCNv2 é uma rede neural profunda projetada especificamente para entradas estruturadas que captura com eficiência as interações cruzadas entre os recursos.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Nubank A busca por modelos fundamentais representa um grande avanço na forma como as instituições financeiras entendem e atendem seus clientes. Ao abandonar a engenharia manual de recursos e adotar o aprendizado autossupervisionado com base em dados brutos de transações, aNubank É construído um sistema de modelagem extensível e expressivo.

A chave para esse sucesso será a forma como o sistema se encaixa em sua infraestrutura de IA mais ampla.Nubank Em vez de criar modelos isolados para cada cenário, foi desenvolvida uma plataforma de IA centralizada. As equipes podem escolher entre dois modelos, dependendo de suas necessidades: um modelo que usa apenas embeddings de sequência de transações e um modelo híbrido que combina embeddings com recursos de formulário estruturado usando uma arquitetura de fusão federada.

Essa flexibilidade é fundamental. Algumas equipes podem incorporar a incorporação do usuário em seu modelo de formulários robusto existente; outras podem depender exclusivamente de novas tarefas baseadas no Transformer do modelo de sequência. A arquitetura também é compatível com novas fontes de dados futuras, como padrões de uso de aplicativos ou chats de suporte ao cliente. Não se trata apenas de uma prova de conceito técnico, mas de uma solução de nível de produção que proporciona benefícios mensuráveis nas principais tarefas de previsão financeira.

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA » Como o Nubank analisa dados de transações de 100 milhões de usuários usando um modelo básico

Como o Nubank analisa dados de transações de 100 milhões de usuários usando um modelo básico