GLM-4.5はテキストと画像のマルチモーダル処理機能を持つが、次のような制限がある:
- メディア・タイプ現在のところ、静止画像(JPEG/PNGなど)とPDFパースのみサポート。
- 同時実行数制限vLLM APIは、1回のリクエストで最大300枚の画像を処理します。
- 図形理解複雑な視覚タスク(物体検出など)においては、CV専用モデルよりも精度が低い。
- クロスモーダル・アソシエーショングラフとテキストによる共同推論機能(例:グラフに基づく分析結果の生成)はまだ最適化されていない。
実用化のための提案:数学的な問題の写真解析などのシーンでは、構造化出力(format="json")でより良い結果を得ることができます。専門的な画像処理に関わる場合は、OpenCVやその他の特別なライブラリと組み合わせる必要があります。
この答えは記事から得たものである。GLM-4.5: 知的推論とコード生成をサポートするオープンソースのマルチモーダル大規模モデルについて