GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...
ARC-Hunyuan-Video-7B:短いビデオコンテンツを理解するためのインテリジェントモデル
ARC-Hunyuan-Video-7Bは、TencentのARC Labによって開発されたオープンソースのマルチモーダルモデルで、ユーザーが作成した短い動画コンテンツの理解に焦点を当てている。動画の視覚、音声、テキスト情報を統合することで、詳細な構造分析を提供する。このモデルは、複雑な視覚要素や高密度の音声情報...
GLM-4.1V-Thinking:マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学(THUDM)のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
ビデオマインド
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、確認...に分割することで、人間がビデオを理解する方法を模倣している。
ディープシーク-VL2
DeepSeek-VL2は、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。
レカ:マルチモーダルAIモデルの提供、多言語処理のサポート、データ分析の最適化、視覚的理解の強化
Reka社は、新世代のマルチモーダルAIソリューションの提供を専門とする企業である。同社の製品には、テキスト、コード、画像、動画、音声データの処理をサポートするReka Core、Flash、Edge、Sparkモデルがあります。Rekaのモデルは、強力な推論機能と、さまざまな言語に対応したマルチ言語サポートを持っています。
トップに戻る