
xAI Grok Imagine API:制作環境向けのすぐに使えるマルチモーダル音声・映像生成サービス
2026年1月、xAIは開発者と企業向けのプロダクショングレードのマルチモーダルビデオ生成サービスであるGrok Imagine APIを正式に開始した。xAIの内部で開発された「Aurora」モデルに基づいて構築されたこのサービスの中核機能は、...

DeepSeek-OCR: オープンソースの光学式文字認識 (OCR) ツール
DeepSeek-OCRは、DeepSeek-AIによって開発され、オープンソース化された光学式文字認識(OCR)ツールです。 大規模言語モデル(LLM)の観点から視覚コーダーの役割を再考する「文脈的光学圧縮」と呼ばれる新しいアプローチを提案しています。 このツールは、単に...

OmniInsert: マスクなしでビデオに参照画像を挿入するツール
OmniInsertは、ByteDance Intelligent Creation Labによって開発された研究プロジェクトです。マスクを使用することなく、あらゆる参照オブジェクトをビデオにシームレスに挿入するツールである。従来のビデオ編集プロセスでは、ビデオに新しいオブジェクトを追加したい場合、通常、手作業で正確な「マスク」を作成し、フレームアウトする必要がありました。.

Wan2.2-S2V-14B:音声駆動型キャラクター口パク同期のための映像生成モデル
Wan2.2-S2V-14Bは、Wan-AIチームによって開発された大規模なAIモデルで、音声、テキスト、画像に基づく高品質なビデオの生成に特化しています。 革新的なMixed Expert(MoE)アーキテクチャを採用し、27Bのモデルパラメータを持ちますが、実行時にアクティブになるのは14Bのみで、パフォーマンスと計算コストのバランスを効果的に取っています。 ...

SpatialLM:部屋を掃引すると、AIが自動的に3Dモデルを描画します!
SpatialLMは、3次元(3D)点群データを処理するために特別に設計された大規模な言語モデルである。その中核機能は、非構造化3D幾何学データを理解し、構造化3Dシーン表現に変換することである。これらの構造化された出力には、建築要素(壁、ドア、窓など)のほか、方位とその意味カテゴリを持つオブジェクトのバウンディングボックスが含まれる。多くのニーズとは対照的に...

VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...

Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデル
Grok-2は、イーロン・マスクのxAIが2024年に開発した第2世代のマクロ言語モデルである。このモデルの主な特徴は、より効率的に情報を処理するために設計されたMoE(Mixture-of-Experts)アーキテクチャである。簡単に言えば、モデル内に複数の「専門家」が存在するということだ。

Baichuan-M2:ヘルスケアにおける拡張推論のための大規模言語モデル
Baichuan-M2は、Baichuan Intelligence社の320億(32B)のパラメータを持つオープンソースの大規模言語モデルです。 このモデルは医療分野に焦点を当て、実世界の医療推論タスクを処理するように設計されています。Qwen2.5-32Bモデルをベースにしており、革新的な「大規模言語モデル」を導入することで開発されました。.

Genie 3: リアルタイムで相互作用できる仮想世界の生成
Genie 3は、Google DeepMindが公開した汎用世界モデル(ワールドモデル)で、仮想環境のシミュレーションと作成におけるAIの最新の進歩を象徴するものである。このモデルの核となる特徴は、テキスト記述のみに基づいてリアルタイムのインタラクションをサポートする多様でダイナミックな世界を生成できることである。ユーザーは、この...

Seed-OSS:長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデル
Seed-OSSは、ByteDanceのSeedチームによって開発されたオープンソースの大規模言語モデルのシリーズで、長いコンテキスト処理、推論機能、エージェントタスクの最適化に焦点を当てています。モデルには360億個のパラメータが含まれ、わずか12兆個のトークンで学習されます。複数のメインストリームベンチマークで優れた性能を発揮し、...

HRM:複雑な推論のための階層的推論モデル
HRM(Hierarchical Reasoning Model)は、人工知能分野における複雑な推論タスクを解くために設計された、わずか2700万個のパラメータを持つ階層的推論モデルである。このモデルの設計は、人間の脳の階層的でマルチタイムスケールな情報処理にヒントを得ている。 これは、高レベルモジュール(...

DeepSeek-V3.1-Base:複雑なタスクを効率的に処理する大規模言語モデル
DeepSeek-V3.1-Baseは、DeepSeekによって開発され、Hugging Faceプラットフォーム上でリリースされたオープンソースの大規模言語モデルで、自然言語処理タスク用に設計されています。6850億のパラメータを持ち、複数のデータ型(BF16、F8_E4M3、F32)をサポートし、...

Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Editは、Alibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、その中核機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることです。 このモデルは、視覚的意味理解と...

GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...

Qwen-Image:正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル(MMDiT)で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理(特に中国語と英語)と画像編集に優れています。このモデルは、リアル、アニメ、高精細ポスターなどの幅広いアートスタイルをサポートしています。.

MiniMax、Speech 2.5をリリース:音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式データによると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数が向上している。 人工知能生成コンテンツ(AIGC)の分野では、テキスト...

KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。

GPT-OSS:OpenAIの効率的推論のためのオープンソース・ビッグモデル
GPT-OSSはOpenAIのオープンソース言語モデルファミリーで、gpt-oss-120bとgpt-oss-20bがあり、それぞれ1170億と2100億のパラメータを持ち、Apache 2.0ライセンスでライセンスされている。

SongGeneration: 高品質の音楽と歌詞を生成するオープンソースのAIモデル
SongGenerationは、テンセントAIラボが開発しオープンソース化した音楽生成モデルで、歌詞、伴奏、ボーカルを含む高品質な楽曲の生成に特化している。LeVoフレームワークに基づいており、言語モデルLeLMと音楽コーデックを組み合わせて、英語と中国語の楽曲生成をサポートしている。このモデルは100万曲のデータセットで学習され、...
トップに戻る