
GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...

Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成
Step3 是由 StepFun 开发的一个开源多模态大模型项目,托管在 GitHub 上,旨在提供高效、经济的文本、图像和语音内容生成能力。项目以 321 亿参数(38 亿活跃参数)的混合专家模型(MoE)为核心,优化了推理速度和性能,适...

AutoArk:複雑なタスクを共同処理するマルチインテリジェンスAIプラットフォーム
无界方舟(AutoArk)是一家专注于人工智能技术的公司,其核心是自研的,在多项国际基准测试中表现比肩GPT-4o的端到端多模态大模型EVA-1。 基于EVA-1模型,无界方舟进一步打造了名为“ArkAgentOS”的多智能体框架。这个框架...

GLM-4.1V-Thinking:マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学(THUDM)のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...

ジェマ3n
グーグルは、Gemma 3とGemma 3 QATをリリースし、包括的なAIのための足跡を拡大しようとしている。Gemma 3が開発者に強力なクラウドとデスクトップ機能をもたらしたとすれば、この2025年5月20日のリリースは...

ベーグル
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...

モシビス
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル(7Bのパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(4億個のパラメータ)により、...

クウェン2.5-オムニ
Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 月 26 日发布,代码和模型文件托管在 GitHu...

ステップ・オーディオ
Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川话)、可调节的语速和韵律风格(如说唱)。Step-...

ヴィータ
VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024年12月,项目推出了重大升级版本VITA-1.5,...

メグレス-3B-オムニ
Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图像、文本和音频的综合理解,具有高准确性和快速推理能...
トップに戻る