マルチモーダルモデル

 ウェブサイトを投稿する

GLM-4.5V：画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...
3.6 Kをとおして0表彰される
0ブックマークに登録
Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成
Step3は、StepFunによって開発され、GitHubでホストされているオープンソースのマルチモーダル・マクロモデリング・プロジェクトであり、効率的で費用対効果の高いテキスト、画像、音声コンテンツ生成機能を提供することを目的としている。このプロジェクトは、推論速度とパフォーマンスを最適化した、321億パラメータ（38億アクティブパラメータ）の混合エキスパートモデル（MoE）を中心としており、...
2.1 Kをとおして0表彰される
0ブックマークに登録
AutoArk：複雑なタスクを共同処理するマルチインテリジェンスAIプラットフォーム
オートアークは人工知能技術に注力する企業であり、その中核となるのが自社開発のエンドツーエンド・マルチモーダルモデル「EVA-1」である。オートアークはEVA-1モデルをベースに、さらにマルチモーダルフレームワーク「ArkAgentOS」を開発した。EVA-1モデルに基づいて、バウンドレス・アークはさらに「ArkAgentOS」というマルチインテリジェンス・フレームワークを開発した。EVA-1モデルに基づき、バウンドレス・アークは「ArkAgentOS」と呼ばれるマルチインテリジェンス・フレームワークをさらに開発した...
2.0 Kをとおして0表彰される
0ブックマークに登録
GLM-4.1V-Thinking：マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学（THUDM）のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
2.7 Kをとおして0表彰される
0ブックマークに登録
Gemma 3n
グーグルは、Gemma 3とGemma 3 QATをリリースし、包括的なAIのための足跡を拡大しようとしている。Gemma 3が開発者に強力なクラウドとデスクトップ機能をもたらしたとすれば、この2025年5月20日のリリースは...
2.5 Kをとおして0表彰される
0ブックマークに登録
BAGEL
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ（合計14Bのパラメータ）を持ち、Mixture-of-Tra...
3.4 Kをとおして0表彰される
0ブックマークに登録
MoshiVis
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル（7Bのパラメータ）をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー（4億個のパラメータ）により、...
3.3 Kをとおして0表彰される
0ブックマークに登録
Qwen2.5-Omni
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHu...
5.1 Kをとおして0表彰される
0ブックマークに登録
Step-Audio
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ（例：中国語、英語、日本語）、感情音声（例：嬉しい、悲しい）、地域方言（例：広東語、四川語）、調整可能なスピーチレート、リズムスタイル（例：ラップ）をサポートしています。.
3.2 Kをとおして0表彰される
0ブックマークに登録
VITA
VITAは、オープンソースの対話型マルチモーダル大規模言語モデリング・プロジェクトのリーダーであり、真の完全なマルチモーダル対話を実現する能力を開拓している。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース対話型フルモーダル大規模言語モデルの先駆者となりました。2024年12月、プロジェクトはメジャーアップグレードのVITA-1.5を立ち上げました。.
3.7 Kをとおして0表彰される
0ブックマークに登録
Megrez-3B-Omni
Infini-Megrezは、ハードウェアとソフトウェアの共同設計により、効率的なマルチモーダル理解と解析の実現を目指し、不問の中核ドーム（Infinigence AI）が開発したエッジ・インテリジェンス・ソリューションである。このプロジェクトの中核となるのがMegrez-3Bモデルであり、画像、テキスト、音声の統合的理解を高精度と高速推論でサポートする。.
3.0 Kをとおして0表彰される
0ブックマークに登録

マルチモーダルモデル

クイック照会ステーションAIツール