Sentiment Analysis Leistungsbericht
HumanOmni zeigt eine branchenführende Leistung bei der Erkennung von Emotionen:
Vergleich der Kernindikatoren
- DFEW-Datensatz:: UAR-Indikator von 74,861 TP3T, deutlich besser als GPT4-O (50,571 TP3T)
- GenauigkeitDurchschnittliche Genauigkeit der sechs grundlegenden Emotionserkennungskategorien 72,3%
- Reaktionsfähigkeit1080p-Video-Echtzeitverarbeitung mit bis zu 24 Bildern pro Sekunde (A100-Grafikkarte)
Technischer Vorteil
Das Modell verwendet einen bimodalen Analysemechanismus:
- visuelle AnalyseErfasst Veränderungen der Mikroexpression an 52 wichtigen Gesichtspunkten
- Voice-ParsingAnalyse von Intonation/Sprachgeschwindigkeit/Pausencharakteristik durch Mel-Spektren
- Integration der EntscheidungsfindungDynamische Gewichtung der beiden Signaltypen mit Hilfe des Aufmerksamkeitsmechanismus
Testfall
Das Modell wurde im Test des Bildungsszenarios erfolgreich anerkannt:
- 91.21 TP3Ts "verwirrter" Ausdruck (kombiniert mit Stirnrunzeln + häufigem Blinzeln)
- 88,71 TP3T "euphorischer" Zustand (beurteilt durch erhöhten Tonfall + Amplitude der Körperbewegungen)
Diese Leistung ist auf die 14.000 Stunden gelabelter Sprachdaten und 800.000 ausdrucksgelabelter Bilder zurückzuführen, die das Modell verwendet.
Diese Antwort stammt aus dem ArtikelHumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungenDie































