Wan2.2-S2V-14B:音声駆動型キャラクター口パク同期のための映像生成モデル
Wan2.2-S2V-14Bは、Wan-AIチームによって開発された大規模なAIモデルで、音声、テキスト、画像に基づく高品質なビデオの生成に特化しています。 革新的な混合エキスパート(MoE)アーキテクチャを採用し、合計27Bのモデルパラメータを持ちますが、実行時にアクティブになるのは14Bのみで、パフォーマンスと...
SpatialLM:部屋を掃引すると、AIが自動的に3Dモデルを描画します!
SpatialLM是一个专门为处理三维(3D)点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据,并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素(如墙壁、门、窗)以及带方向的物体...
VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデル
Grok-2は、イーロン・マスクのxAIが2024年に開発した第2世代のマクロ言語モデルである。このモデルの主な特徴は、より効率的に情報を処理するために設計されたMoE(Mixture-of-Experts)アーキテクチャである。簡単に言えば、モデル内に複数の「専門家」が存在するということだ。
Baichuan-M2:ヘルスケアにおける拡張推論のための大規模言語モデル
Baichuan-M2 是百川智能公司推出的一个参数量为320亿(32B)的开源大语言模型。 该模型专注于医疗领域,旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发,通过引入创新的“大型验证器系统”(L...
Genie 3: リアルタイムで相互作用できる仮想世界の生成
Genie 3是谷歌DeepMind发布的一款通用世界模型(world model),它代表了AI在模拟和创建虚拟环境方面的最新进展。这款模型最核心的特点是,它可以仅仅根据一段文字描述,生成一个多样化且支持实时交互的动态世界...
Seed-OSS:長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデル
Seed-OSSは、ByteDance社のSeedチームによって開発されたオープンソースの大規模言語モデルのシリーズで、長い文脈処理、推論機能、エージェントタスクの最適化に焦点を当てています。モデルには360億個のパラメータが含まれ、わずか12兆個のトークンで学習され、いくつかの主要なベンチマークで良好な性能を発揮し、......をサポートしています。
HRM:複雑な推論のための階層的推論モデル
HRM(Hierarchical Reasoning Model)は、人工知能分野における複雑な推論タスクを解くために設計された、わずか2700万個のパラメータを持つ階層的推論モデルである。モデルの設計は、人間の脳の階層的でマルチタイムスケールな情報処理にヒントを得ている。 このモデルは、高レベルのモジュール(負... 続きを読む
DeepSeek-V3.1-Base:複雑なタスクを効率的に処理する大規模言語モデル
DeepSeek-V3.1-Baseは、DeepSeekによって開発され、Hugging Faceプラットフォーム上でリリースされたオープンソースの大規模言語モデルで、自然言語処理タスク用に設計されています。6850億のパラメータを持ち、複数のデータ型(BF16、F8_E4M3、F32)をサポートし、...
Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Editは、Alibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、そのコア機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることです。 このモデルはまた、視覚的...
GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...
Qwen-Image:正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル(MMDiT)で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理(特に中国語と英語)と画像編集に優れています。このモデルは、写実的、...など様々なアートスタイルをサポートしています。
MiniMax、Speech 2.5をリリース:音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式情報によると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数などが向上しているという。 人工知能生成コンテンツ(AIGC)の分野では...
KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。
GPT-OSS:OpenAIの効率的推論のためのオープンソース・ビッグモデル
GPT-OSSはOpenAIのオープンソース言語モデルファミリーで、gpt-oss-120bとgpt-oss-20bがあり、それぞれ1170億と2100億のパラメータを持ち、Apache 2.0ライセンスでライセンスされている。
SongGeneration: 高品質の音楽と歌詞を生成するオープンソースのAIモデル
SongGenerationはTencent AI Labによって開発され、オープンソース化された音楽生成モデルで、歌詞、伴奏、ボーカルを含む高品質な楽曲の生成に焦点を当てている。LeVoフレームワークをベースに、言語モデルLeLMと音楽コーデックを組み合わせ、英語と中国語の楽曲生成をサポートしている。このモデルは、数百万曲のデータセットに基づいている。
Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成
Step3は、GitHubでホストされているStepFunによって開発されたオープンソースのマルチモーダル・マクロモデリング・プロジェクトであり、効率的で費用対効果の高いテキスト、画像、音声コンテンツ生成機能を提供することを目的としている。このプロジェクトは、推論速度を最適化した、321億パラメータ(38億アクティブパラメータ)の混合エキスパートモデル(MoE)を中心としている。
シードの拡散:次世代アーキテクチャのための高速言語モデルの検証
Seed Diffusionは、ByteDance Seedチームが清華大学知能産業研究院(AIR)と共同で立ち上げた実験的言語モデルです。このウェブサイトは、このモデルの技術実証プラットフォームです。このモデルは離散拡散技術に基づいており、主な目的は、次世代の言語モデルの基礎となるフレームワークを探求することです。
SkyworkUniPic: 統合処理画像理解と生成のためのオープンソースモデル
SkyworkUniPicは、SkyworkAIによって開発されたオープンソースのマルチモーダルモデルで、画像理解、テキスト生成画像、画像編集に焦点を当てています。単一の1億5000万パラメータ・アーキテクチャを使用して、3つの視覚言語タスクを統合しています。ユーザーは、RTX 4090のような民生用GPUで102を実行することができます...
トップに戻る