
DeepSeek-OCR: オープンソースの光学式文字認識 (OCR) ツール
DeepSeek-OCRは、DeepSeek-AIによって開発され、オープンソース化された光学式文字認識(OCR)ツールです。 大規模言語モデル(LLM)の観点から視覚コーダーの役割を再考する「文脈的光学圧縮」と呼ばれる新しいアプローチを提案しています。 このツールは単に...

OmniInsert: マスクなしでビデオに参照画像を挿入するツール
OmniInsertは、ByteDance Intelligent Creation Labによって開発された研究プロジェクトです。マスク(Mask)を使用することなく、任意の参照オブジェクトを動画にシームレスに挿入するツールです。従来のビデオ編集プロセスでは、ビデオに新しいオブジェクトを追加したい場合、通常は手動で...

Wan2.2-S2V-14B:音声駆動型キャラクター口パク同期のための映像生成モデル
Wan2.2-S2V-14Bは、Wan-AIチームによって開発された大規模なAIモデルで、音声、テキスト、画像に基づく高品質なビデオの生成に特化しています。 革新的な混合エキスパート(MoE)アーキテクチャを採用し、合計27Bのモデルパラメータを持ちますが、実行時にアクティブになるのは14Bのみで、パフォーマンスと...

SpatialLM:部屋を掃引すると、AIが自動的に3Dモデルを描画します!
SpatialLMは、3次元(3D)点群データを処理するために特別に設計された大規模な言語モデルである。その中核機能は、非構造化3D幾何学データを理解し、構造化3Dシーン表現に変換することである。これらの構造化された出力には、建築要素(壁、ドア、窓など)や、方向性を持つオブジェクトが含まれる。

VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...

Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデル
Grok-2は、イーロン・マスクのxAIが2024年に開発した第2世代のマクロ言語モデルである。このモデルの主な特徴は、より効率的に情報を処理するために設計されたMoE(Mixture-of-Experts)アーキテクチャである。簡単に言えば、モデル内に複数の「専門家」が存在するということだ。

Baichuan-M2:ヘルスケアにおける拡張推論のための大規模言語モデル
Baichuan-M2は、Baichuan Intelligence社の320億(32B)のパラメータを持つオープンソースの大規模言語モデルです。 このモデルは医療分野に焦点を当て、実世界の医療推論タスクを処理するように設計されています。Qwen2.5-32Bモデルをベースにしており、革新的な "Large Validator System" (L...

Genie 3: リアルタイムで相互作用できる仮想世界の生成
Genie 3は、Google DeepMindが公開した汎用世界モデル(ワールドモデル)で、仮想環境のシミュレーションと作成のためのAIの最新の進歩を象徴するものである。このモデルの核となる特徴は、テキストによる記述だけで、リアルタイムのインタラクションをサポートする多様でダイナミックな世界を生成できることである。

Seed-OSS:長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデル
Seed-OSSは、ByteDance社のSeedチームによって開発されたオープンソースの大規模言語モデルのシリーズで、長い文脈処理、推論機能、エージェントタスクの最適化に焦点を当てています。モデルには360億個のパラメータが含まれ、わずか12兆個のトークンで学習され、いくつかの主要なベンチマークで良好な性能を発揮し、......をサポートしています。

HRM:複雑な推論のための階層的推論モデル
HRM(Hierarchical Reasoning Model)は、人工知能分野における複雑な推論タスクを解くために設計された、わずか2700万個のパラメータを持つ階層的推論モデルである。モデルの設計は、人間の脳の階層的でマルチタイムスケールな情報処理にヒントを得ている。 このモデルは、高レベルのモジュール(負... 続きを読む

DeepSeek-V3.1-Base:複雑なタスクを効率的に処理する大規模言語モデル
DeepSeek-V3.1-Baseは、DeepSeekによって開発され、Hugging Faceプラットフォーム上でリリースされたオープンソースの大規模言語モデルで、自然言語処理タスク用に設計されています。6850億のパラメータを持ち、複数のデータ型(BF16、F8_E4M3、F32)をサポートし、...

Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Editは、Alibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、そのコア機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることです。 このモデルはまた、視覚的...

GLM-4.5V:画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...

Qwen-Image:正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル(MMDiT)で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理(特に中国語と英語)と画像編集に優れています。このモデルは、写実的、...など様々なアートスタイルをサポートしています。

MiniMax、Speech 2.5をリリース:音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式情報によると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数などが向上しているという。 人工知能生成コンテンツ(AIGC)の分野では...

KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。

GPT-OSS:OpenAIの効率的推論のためのオープンソース・ビッグモデル
GPT-OSSはOpenAIのオープンソース言語モデルファミリーで、gpt-oss-120bとgpt-oss-20bがあり、それぞれ1170億と2100億のパラメータを持ち、Apache 2.0ライセンスでライセンスされている。

SongGeneration: 高品質の音楽と歌詞を生成するオープンソースのAIモデル
SongGenerationはTencent AI Labによって開発され、オープンソース化された音楽生成モデルで、歌詞、伴奏、ボーカルを含む高品質な楽曲の生成に焦点を当てている。LeVoフレームワークをベースに、言語モデルLeLMと音楽コーデックを組み合わせ、英語と中国語の楽曲生成をサポートしている。このモデルは、数百万曲のデータセットに基づいている。

Step3: マルチモーダルコンテンツのためのオープンソースマクロモデルの効率的な生成
Step3は、GitHubでホストされているStepFunによって開発されたオープンソースのマルチモーダル・マクロモデリング・プロジェクトであり、効率的で費用対効果の高いテキスト、画像、音声コンテンツ生成機能を提供することを目的としている。このプロジェクトは、推論速度を最適化した、321億パラメータ(38億アクティブパラメータ)の混合エキスパートモデル(MoE)を中心としている。
トップに戻る