ビジュアル・アイデンティティ・モデル

 ウェブサイトを投稿する

GLM-4.1V-Thinking：マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学（THUDM）のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
235をとおして0表彰される
0ブックマークに登録
ビデオマインド
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、確認...に分割することで、人間がビデオを理解する方法を模倣している。
1.1 Kをとおして0表彰される
0ブックマークに登録
ディープシーク-VL2
DeepSeek-VL2は、高度なMoE（Mixture-of-Experts）視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。
1.5 Kをとおして0表彰される
0ブックマークに登録

ビジュアル・アイデンティティ・モデル

クイック照会ステーションAIツール