センチメント分析パフォーマンス・レポート
HumanOmniは、感情認識タスクにおいて業界をリードする性能を発揮する:
コア指標の比較
- DFEWデータセット:UAR指標は74.861 TP3Tで、GPT4-O(50.571 TP3T)より有意に良好。
- 精度6つの基本感情カテゴリーの平均認識精度 72.3%
- 応答性最大24fpsの1080pビデオリアルタイム処理(A100グラフィックスカード)
テクニカル・アドバンテージ
このモデルは二峰性の分析メカニズムを採用している:
- 視覚分析顔の52の主要ポイントにおける微表現の変化を捉える
- 音声解析メル・スペクトルによるイントネーション/発話速度/間の特徴の分析
- 統合された意思決定注意メカニズムを用いた2種類の信号の動的重み付け
テストケース
このモデルは、教育シナリオテストにおいて見事に認識された:
- 91.21 TP3Tの "困惑 "した表情(しかめ面+頻繁な瞬きの特徴と組み合わされている)
- 88.71 TP3T「多幸感」状態(声のトーン+体の動きの振幅の増加で判断)
この性能は、モデルが使用した14,000時間のラベル付き音声データと800,000の表情ラベル付き画像によるものである。
この答えは記事から得たものである。HumanOmni:人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデルについて































