Derzeitige Position:Abb. Anfang " Praktische AI-Tutorials

Wie Nubank die Transaktionsdaten von 100 Millionen Nutzern anhand eines Basismodells analysiert

2025-07-23

572

Das Kundenverhalten von Großnutzern zu verstehen, ist eine zentrale Herausforderung für moderne Finanzinstitute. Wenn Milliarden von Transaktionen von Millionen von Nutzern generiert werden, hängt die Fähigkeit, diese Daten zu interpretieren, direkt mit dem Erfolg oder Misserfolg von Produktempfehlungen, Betrugserkennung, Risikobewertung und Nutzererfahrung zusammen.

In der Vergangenheit hat sich die Finanzbranche auf traditionelle Methoden des maschinellen Lernens verlassen, die auf tabellarischen Daten basieren. Bei diesem Modell wurden Transaktionsrohdaten manuell in strukturierte "Merkmale" umgewandelt, z. B. Einkommenshöhe, Ausgabenkategorien oder Anzahl der Transaktionen, und diese Merkmale dann in Vorhersagemodelle eingespeist. Dieser Ansatz ist zwar effektiv, hat aber zwei fatale Schwächen: Erstens ist die manuelle Erstellung von Merkmalen zeitaufwändig und anfällig und hängt in hohem Maße von der Erfahrung der Fachleute ab; zweitens ist er nicht sehr vielseitig, da Merkmale, die für die Kreditrisikokontrolle entwickelt wurden, nur schwer für die Betrugserkennung verwendet werden können, was zu Doppelarbeit in verschiedenen Teams führt.

Um diese Beschränkungen zu durchbrechen.Nubank Wir wenden uns einer Technik zu, die die Bereiche der Verarbeitung natürlicher Sprache und der Computer Vision verändert: Foundation Models. Anstatt sich auf künstliche Merkmale zu stützen, lernen Foundation Models durch selbstüberwachtes Lernen automatisch generische "Einbettungen" direkt aus riesigen Mengen von Transaktionsrohdaten. Diese Einbettungen erfassen tiefgreifende Muster des Nutzerverhaltens auf kompakte und aussagekräftige Weise.

Nubank Ziel ist es, Billionen von Transaktionen zu verarbeiten und eine gemeinsame Benutzerdarstellung zu extrahieren, die eine Vielzahl von nachgelagerten Aufgaben wie Kreditmodellierung, personalisierte Empfehlungen, Erkennung von Anomalien und mehr unterstützen kann. Auf diese Weise hofft man, die Modellierungsstandards zu vereinheitlichen, die wiederholte Entwicklung von Merkmalen zu reduzieren und die Vorhersageleistung insgesamt zu verbessern.

Dieser Artikel befasst sich mit den Nubank Die für die Erstellung und den Einsatz dieser Basismodelle verwendete Technologie umfasst den gesamten Lebenszyklus von der Datendarstellung und der Modellarchitektur bis hin zum Pre-Training, der Feinabstimmung und der Integration mit herkömmlichen Tabellensystemen.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Die allgemeine Systemarchitektur von Nubank

Nubank Das Basismodellsystem wurde entwickelt, um generische Benutzerrepräsentationen aus massiven Finanzdaten zu extrahieren. Diese Repräsentationen, die als "Einbettungen" bezeichnet werden, werden später in Geschäftsszenarien wie Kreditwürdigkeitsprüfung, Produktempfehlung und Betrugserkennung weit verbreitet sein. Die gesamte Architektur basiert auf Transformer Das Modell ist auf mehrere Schlüsselphasen ausgerichtet.

1 - Aufnahme von Transaktionsdaten

Ausgangspunkt für das System ist die Sammlung von Transaktionsrohdaten für jeden Kunden, einschließlich Informationen wie Transaktionsbeträge, Zeitstempel und Händlerbeschreibungen. Die Datenmenge ist enorm und umfasst Billionen von Transaktionen von über 100 Millionen Nutzern. Jeder Nutzer hat eine chronologische Abfolge von Transaktionen, die für das Modell entscheidend ist, um die Entwicklung des Konsumverhaltens des Nutzers zu verstehen.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

2 - Eingebettete Schnittstelle

Die rohen Transaktionsdaten müssen konvertiert werden in Transformer Ein Format, das das Modell versteht.Nubank Es wird eine hybride Kodierungsstrategie verwendet, bei der jede Transaktion als strukturierte Folge von Token behandelt wird (Token).

Jede Transaktion ist in mehrere Schlüsselelemente unterteilt:

DollarzeichenKlassifizierungstoken: Ein Klassifizierungstoken wird verwendet, um anzuzeigen, ob eine Transaktion positiv (z. B. Einzahlung) oder negativ (z. B. Verbrauch) ist.
GeldausgabeautomatTransaktionsbeträge werden quantifiziert und in vordefinierte "Boxen" unterteilt, um die Varianz der Werte zu verringern.
DatumstokenDatum: Datumsangaben wie Monat, Wochentag und Zahl werden ebenfalls in separate Token umgewandelt.
Beschreibung des HändlersStandard-Texttrenner verwenden (z.B. Byte Pair Encoding) zerlegt den Händlernamen in mehrere Teilwort-Token.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Diese tokenisierte Sequenz bewahrt sowohl die Struktur und Semantik der ursprünglichen Daten als auch die Kompaktheit der Eingabesequenz. Dies ist wichtig, weil die Transformer Der Rechenaufwand für den Mechanismus der mittleren Aufmerksamkeit ist proportional zum Quadrat der Eingabelänge.

3 - Transformator-Backbone

Die tokenisierte Transaktionssequenz wird in die Transformer Modelle.Nubank Versucht eine Vielzahl von Transformer Varianten, um die Leistung zu optimieren. Diese Modelle werden durch selbstüberwachtes Lernen ohne manuell markierte Daten trainiert. Sie befassen sich mit zwei Haupttypen von Aufgaben:

Maskierte Sprachmodellierung (MLM)Das Verstecken eines Teils der Token in einer Folge von Transaktionen ermöglicht es dem Modell, vorherzusagen, was versteckt wird.
Nächste Token-Vorhersage (NTP): Lassen Sie das Modell lernen, das nächste Token in der Sequenz vorherzusagen.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Transformer Die Ausgabe des Programms ist eine Benutzereinbettung fester Länge, die in der Regel aus dem verborgenen Zustand des letzten Tokens stammt.

4 - Selbstgesteuertes Training

Das Modell wird auf umfangreichen, nicht gekennzeichneten Transaktionsdaten trainiert. Da keine manuelle Kennzeichnung erforderlich ist, kann das System die gesamte Transaktionshistorie eines jeden Nutzers auswerten. Durch ständige Vorhersage der fehlenden oder zukünftigen Teile der Transaktionssequenz eines Nutzers lernt das Modell selbstständig wertvolle Muster des Finanzverhaltens, wie Konsumzyklen, wiederkehrende Zahlungen und ungewöhnliche Transaktionen. Ein vereinfachtes Beispiel: Das Modell sieht "Kaffee, Mittagessen, dann..." und versucht zu erraten, dass als nächstes "Abendessen" ansteht.

Die Größe der Trainingsdaten und der Modellparameter ist entscheidend. Mit zunehmender Größe des Modells und des Kontextfensters verbessert sich die Leistung erheblich. Wenn man beispielsweise von einem MLM-Basismodell zu einem großen kausalen Modell mit einer optimierten Aufmerksamkeitsschicht wechselt Transformer Modell verbessert sich die Leistung bei der nachgelagerten Aufgabe um mehr als 7 Prozentpunkte.

5 - Nachgelagerte Feinabstimmung und Integration

Sobald das Pre-Training des Basismodells abgeschlossen ist, kann es für bestimmte Aufgaben feinabgestimmt werden. Dies geschieht in der Regel in der Transformer Oben wird ein Vorhersagekopf hinzugefügt und anhand von gekennzeichneten Daten trainiert. Bei einer Aufgabe zur Vorhersage von Kreditausfällen würden zum Beispiel bekannte Ausfallkennzeichen zur Feinabstimmung des Modells verwendet werden.

Zur Integration in bestehende Systeme.Nubank Fusion von modellgenerierten Benutzereinbettungen mit manuell erstellten Formularmerkmalen. Diese Verschmelzung wird auf zwei Arten erreicht:

Späte Fusion: Verwendung LightGBM und andere Modelle, um eingebettete und tabellarische Daten zu kombinieren, aber die beiden werden getrennt trainiert.
GelenkfusionVerwendung von tiefen neuronalen Netzen (insbesondere DCNv2 Architektur) wird Transformer und tabellarische Datenmodelle werden gemeinsam in einem End-to-End-System trainiert.

6 - Zentralisierte Modellbibliothek

Um die gesamte Architektur innerhalb des Unternehmens verfügbar zu machenNubank Es wurde eine zentralisierte KI-Plattform geschaffen. Die Plattform speichert vortrainierte Basismodelle und bietet einen standardisierten Feinabstimmungsprozess. Interne Teams können direkt auf diese Modelle zugreifen, ihre eigenen Geschäftsmerkmale einbeziehen und feinabgestimmte Versionen bereitstellen, ohne von Grund auf neu trainieren zu müssen. Diese zentralisierte Verwaltung beschleunigt den Entwicklungsprozess und reduziert die Redundanz von Ressourcen.

Umwandlung von Transaktionsdaten in modelllesbare Sequenzen

wegen Transformer Bei der Aufbereitung der Transaktionsdaten durch das Modell gibt es zwei wesentliche Herausforderungen:

Gemischte DatentypenEine einzelne Transaktion enthält strukturierte Felder (z. B. Betrag und Datum) und Textfelder (z. B. Händlername), die sich nur schwer einheitlich in Klartext oder rein strukturierter Form darstellen lassen.
Hohe Basis und KaltstartproblemeDie Vielfalt der Transaktionen ist extrem hoch, wobei neue Kombinationen von verschiedenen Händlern, Orten oder Beträgen entstehen. Wenn jeder einzelnen Transaktion eine eigene ID zugewiesen wird, wird das Lexikon ungewöhnlich groß, so dass das Modell schwer zu trainieren und nicht in der Lage ist, neue Transaktionen zu verarbeiten, die während des Trainingszeitraums noch nicht gesehen wurden (d. h. das Problem des Kaltstarts).

Um diese Herausforderungen zu bewältigen.Nubank Es werden verschiedene Strategien zur Umwandlung von Transaktionen in Token-Sequenzen untersucht.

Option 1: ID-basierte Darstellung

Bei diesem Ansatz wird jeder eindeutigen Transaktion eine numerische ID zugewiesen, ähnlich wie in Empfehlungssystemen. Dieser Ansatz ist zwar einfach und effizient, hat aber offensichtliche Nachteile: Die Zahl der eindeutigen Transaktionskombinationen ist zu groß, als dass der ID-Raum handhabbar wäre; gleichzeitig ist das Modell nicht in der Lage, neue Transaktionen zu verarbeiten, die noch nie zuvor gesehen wurden.

Programm II: Text ist alles

Bei dieser Methode wird jede Transaktion als ein Stück Text in natürlicher Sprache behandelt, z. B. "description=NETFLIX amount=32.40 date=2023-05-12". Diese Darstellung ist sehr vielseitig und kann Transaktionen in jedem Format verarbeiten. Allerdings ist sie extrem rechenaufwändig. Bei der Umwandlung strukturierter Felder in lange Textsequenzen entsteht eine große Anzahl unnötiger Token, was zu einer Transformer der Aufmerksamkeit die Kosten für Berechnungen in die Höhe schnellen und die Ausbildung sich verlangsamt.

Option 3: Hybride Kodierung (nach Wahl von Nubank)

Um ein Gleichgewicht zwischen Vielseitigkeit und Effizienz zu schaffen, wurde dasNubank Es wurde eine hybride Kodierungsstrategie entwickelt. Sie zerlegt jede Transaktion in eine kompakte Menge diskreter Feld-Token, einschließlich des Betragszeichens, des Betragsunterfelds, des Datums und der Händlerbeschreibung nach Unterteilung in Teilwörter.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Dieser hybride Ansatz bewahrt wichtige strukturierte Informationen in einem kompakten Format mit der Fähigkeit zur Verallgemeinerung, um neue Eingaben zu verarbeiten und die Rechenkosten effizient zu kontrollieren. Wenn jede Transaktion auf diese Weise tokenisiert wird, kann der gesamte Transaktionsverlauf eines Nutzers zu einer langen Sequenz zusammengefügt werden, die als Transformer Die Eingabe.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Training des Basismodells

Nubank Das bedeutet, dass das Modell direkt aus der Abfolge der Transaktionen lernt, ohne dass es von Menschen gelabelt wird. Dieser Ansatz ermöglicht es dem System, riesige Mengen an historischen Transaktionsdaten von Millionen von Nutzern zu nutzen.

Es werden hauptsächlich zwei Arten von Ausbildungszielen verwendet:

Nächste Token-Vorhersage (NTP)Das Modell sagt das nächste Token in der Sequenz auf der Grundlage des vorherigen Tokens voraus. Ähnlich wie ein Sprachmodell, das das nächste Wort in einem Satz vorhersagt, lernt das Modell auf diese Weise, den Fluss und die Struktur des Handelsverhaltens zu verstehen.
Maskierte Sprachmodellierung (MLM)Verstecken Sie nach dem Zufallsprinzip einige Token in einer Sequenz und trainieren Sie das Modell, die "verdeckten" Token zu erraten. Dadurch ist das Modell gezwungen, den Kontext zu verstehen und tiefere Beziehungen zwischen den Token zu lernen, z. B. die Verbindung zwischen dem Wochentag und der Art des Kaufs oder dem Händlernamen und dem Transaktionsbetrag.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Verschmelzung der Sequenzeinbettung mit tabellarischen Daten

Während die zugrundeliegenden Modelle, die auf Transaktionssequenzen basieren, komplexe Verhaltensmuster erfassen können, stützen sich viele Finanzsysteme nach wie vor auf strukturierte Tabellendaten, wie z. B. Informationen aus Kreditbüros oder Nutzerprofile. Um diese beiden Datenquellen in vollem Umfang nutzen zu können, müssen sie effektiv fusioniert werden.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Post-Fusion (Basislinienmethode)

Bei der Post-Fusion werden die "eingefrorenen" Einbettungen, die durch das vortrainierte Basismodell erzeugt wurden, mit den Formmerkmalen kombiniert und dann in das LightGBM vielleicht XGBoost unter anderen traditionellen Modellen des maschinellen Lernens. Dieser Ansatz ist einfach zu implementieren, aber da die zugrundeliegenden Modelle unabhängig voneinander trainiert werden, können ihre generierten Einbettungen während des Trainings nicht sinnvoll mit den Tabellendaten interagieren, was die Obergrenze der Gesamtleistung begrenzt.

Gelenkverschmelzung (empfohlene Methode)

Um diese Einschränkung zu überwinden, wird dieNubank Es wurde eine gemeinsame Fusionsarchitektur entwickelt. Der Ansatz trainiert gleichzeitig in einem End-to-End-System Transformer und Modelle, die tabellarische Daten verarbeiten. Auf diese Weise lernt das Modell, Informationen aus Transaktionssequenzen zu extrahieren, die die tabellarischen Daten ergänzen können, und die beiden Komponenten werden gemeinsam für dasselbe Prognoseziel optimiert.

Nubank Option DCNv2 (Deep & Cross Network v2) Architektur zur Verarbeitung von Tabellenmerkmalen.DCNv2 ist ein tiefes neuronales Netz, das speziell für strukturierte Eingaben entwickelt wurde und Kreuzinteraktionen zwischen Merkmalen effizient erfasst.

Nubank 如何利用基础模型分析一亿用户的交易数据-1

Nubank Das Bestreben, fundamentale Modelle zu nutzen, stellt einen großen Fortschritt in der Art und Weise dar, wie Finanzinstitute ihre Kunden verstehen und bedienen. Durch die Abkehr vom manuellen Feature-Engineering und die Umstellung auf selbstüberwachtes Lernen auf der Grundlage von Transaktionsrohdaten kann dieNubank Es wird ein Modellierungssystem entwickelt, das sowohl erweiterbar als auch ausdrucksstark ist.

Entscheidend für diesen Erfolg wird sein, wie sich das System in die breitere KI-Infrastruktur einfügt.Nubank Anstatt isolierte Modelle für jedes Szenario zu erstellen, wurde eine zentralisierte KI-Plattform entwickelt. Die Teams können je nach Bedarf zwischen zwei Modellen wählen: einem Modell, das nur Einbettungen von Transaktionssequenzen verwendet, und einem Hybridmodell, das Einbettungen mit strukturierten Formularmerkmalen unter Verwendung einer föderierten Fusionsarchitektur kombiniert.

Diese Flexibilität ist entscheidend. Einige Teams können die Benutzereinbettung in ihr bestehendes robustes Formularmodell einbauen, während andere sich ausschließlich auf neue Aufgaben auf der Grundlage der Transformer des Sequenzmodells. Die Architektur ist auch mit neuen zukünftigen Datenquellen wie Anwendungsnutzungsmustern oder Chats im Kundensupport kompatibel. Es handelt sich nicht nur um ein technisches Proof-of-Concept, sondern um eine produktionsreife Lösung, die messbare Vorteile bei zentralen Aufgaben der Finanzprognose bietet.

Wie Nubank die Transaktionsdaten von 100 Millionen Nutzern anhand eines Basismodells analysiert