Step3 標準化された処理によってフォーマットの問題に対処する:
- 入力構造この場合、各要素は明示的に指定され、合意された形式のメッセージの配列を使用することが義務づけられる。
type
フィールド(テキスト/画像/音声) - 前処理装置内蔵
AutoProcessor
さまざまなモーダルデータを自動的に識別し、モデルに適したテンソルに変換します。
具体的な実施例:
messages = [{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/img.jpg"},
{"type": "text", "text": "描述场景"}
]
}]
JPEG/PNG画像、MP3/WAVオーディオ、UTF-8テキストの混在入力を0.1%以下のエラーレートでサポートすることが確認されています。
この答えは記事から得たものである。Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成について