GLM-4.1V-Thinking:マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学(THUDM)のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
ビデオマインド
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、確認...に分割することで、人間がビデオを理解する方法を模倣している。
ディープシーク-VL2
DeepSeek-VL2は、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。