クロスモーダル理解と生成能力の分析
GLM-4.5のマルチモーダルエンジンは、テキストと画像の両方を処理できる数少ないオープンソースのビッグモデルの一つである。技術的な実装として、このモデルはデュアルエンコーダーアーキテクチャを採用している。テキストブランチは自己回帰変換器に基づいており、ビジュアルブランチは改良されたViTモデルを使っている。そのマルチモーダル能力は3つの次元で発現する。第1に、数学的問題の絵を解析し、解答ステップを与えるようなグラフィックQ&A、第2に、テキスト記述に基づき構造化されたレポートを出力し、イラストを自動的にマッチングさせるコンテンツ生成、第3に、PDF/PPTやその他のフォーマットのセマンティック解析をサポートする文書理解である。
実際、このモデルはTextVQAベンチマークテストで78.2%の精度を達成し、同じパラメータサイズのオープンソースモデルを大幅に上回っている。商用アプリケーションとしては、インテリジェント・カスタマー・サービス(製品ダイアグラムの自動解析)、教育技術(数学問題のグラフィカルな解法)、コンテンツ監査(グラフィカルな一貫性チェック)などのシナリオに特に適しています。現在のバージョンは当分の間、ビデオ処理をサポートしていないことは注目に値するが、これは上位のクローズド・ソース・モデルとの主なギャップのひとつである。
この答えは記事から得たものである。GLM-4.5: 知的推論とコード生成をサポートするオープンソースのマルチモーダル大規模モデルについて































