画像理解関数の説明
コア機能
- 高解像度対応最大4K解像度の画像
- 詳細を把握する能力画像の細部を認識
- マルチチャート分析の比較複数の画像を同時に処理し、比較することができます。
手続き
- 画像ファイルの準備:分析する画像をローカルディレクトリに配置する。
- モデルとトークナイザーの読み込み
- クエリーステートメントとイメージパスの構築
- モデルによる推論
- 返された結果の取得と解析
サンプルコード::
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained('internlm/internlm-xcomposer2d5-7b', trust_remote_code=True).cuda().eval()
tokenizer = AutoTokenizer.from_pretrained('internlm/internlm-xcomposer2d5-7b', trust_remote_code=True)
query = "详细分析这张图片"
image = ['examples/dubai.png']
response, _ = model.chat(tokenizer, query, image, do_sample=False, num_beams=3)
print(response)
この機能は、画像注釈、コンテンツ監査、製品分析など、さまざまなアプリケーションシナリオに適しています。
この答えは記事から得たものである。InternLM-XComposer:非常に長いテキストと画像・動画理解を出力するためのマルチモーダル・マクロモデルについて































