ジェマ3n
グーグルは、Gemma 3とGemma 3 QATをリリースし、包括的なAIのための足跡を拡大しようとしている。Gemma 3が開発者に強力なクラウドとデスクトップ機能をもたらしたとすれば、この2025年5月20日のリリースは...
ベーグル
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...
モシビス
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル(7Bのパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(4億個のパラメータ)により、...
クウェン2.5-オムニ
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHでホストされている。
ステップ・オーディオ
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート...
ヴィータ
VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024年12月,项目推出了重大升级版...
メグレス-3B-オムニ
Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图像、文本和音频的综合理解,具有高准确性和快...