M3-Agentの導入要件は、基本構成と機能拡張の2つの階層に分けることができる:
- コア・ハードウェア要件:
- フル稼働(メモリ生成あり):1 x A100(80GBメモリ)または4 x RTX 3090が必要
- 純粋推論モード:最低16GBのビデオメモリを搭載したGPU
- ストレージ容量:200GB以上の空き容量
- 環境依存:
- ベース環境: setup.shスクリプトを実行して、ベース依存関係を設定する必要があります。
- メモリープロセス:特定のバージョンのトランスフォーマーライブラリーとQwen-Omniツールキットのインストールが必要。
- 制御プロセス:transformers==4.51.0/vllm==0.8.4などの正確なバージョンが必要。
注目すべきは、ビデオ処理段階で複数の中間ファイルが生成されることだ:
1) FFmpegで30秒のビデオクリップをカットする。
2)speakerlabで生成した音声特徴量
3) 最終的なメモリーマップ.pklファイル
I/O効率を向上させるためにSSDストレージを使用することが推奨され、長時間のビデオ処理用に余分なキャッシュ領域を確保する必要がある。
この答えは記事から得たものである。M3-Agent:長期記憶を持ち、音声と映像を処理できるマルチモーダルインテリジェンスについて































