GLM-4.5Vは、Zhi Spectrum AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)で、MOEアーキテクチャのテキストモデルであるGLM-4.5-Airをベースに構築されており、総パラメータ数は1060億、活性化パラメータ数は120億です。主な特徴は以下の通りです:
- マルチモーダルな理解:画像、テキスト、ビデオコンテンツを処理し、複雑な画像の推論や長いビデオの理解をサポートします。
- コード生成:ウェブページのスクリーンショットやビデオに基づいてHTML/CSSコードを生成します。
- 視覚的オリエンテーション:画像内のオブジェクトの位置を正確に特定し、座標情報を返します。
- GUIインテリジェンシア:タップ、スワイプ、その他のアクションをシミュレートし、自動タスクに適しています。
- ドキュメントの解析:要約、翻訳、図表抽出などをサポートし、長い文書を深く分析します。
- 教材:図解された主題の問題を解き、解決するための手順を提供する。
この答えは記事から得たものである。GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデルについて