基本モデル

 ウェブサイトを投稿する

Agnes AI：提供全模态模型免费API、支持图文视频生成与复杂工程执行的智能体平台
Agnes AI 是由新加坡初创公司 Sapiens AI 开发的新一代多模态大模型与智能应用生态系统。它突破了单一文本聊天的限制，提供集文本、图像、视频生成于一体的“全模态”大模型能力。平台的核心产品矩阵包括主打自动化工作流的 Agnes...
626をとおして0表彰される
0ブックマークに登録
GLM-5V-Turbo：マルチモーダルなビジュアルプログラミングとインテリジェントなボディワークフローをサポートする基本的なビッグモデル
GLM-5V-Turboは、ビジュアルプログラミングのためにZ.aiによって構築されたネイティブのマルチモーダルコーディングベースモデルです。Agent時代において、純粋なテキスト入力による従来のモデルの限界を打ち破り、事前学習段階から視覚とテキストの機能を深く統合しています（新世代のCogViTビジュアルコーダーとMTPフレームワークを使用...
1.3 Kをとおして0表彰される
0ブックマークに登録
xAI Grok Imagine API：制作環境向けのすぐに使えるマルチモーダル音声・映像生成サービス
2026年1月、xAIは開発者と企業向けのプロダクショングレードのマルチモーダルビデオ生成サービスであるGrok Imagine APIを正式に開始した。xAIの内部で開発された「Aurora」モデルに基づいて構築されたこのサービスの中核機能は、...
2.6 Kをとおして0表彰される
0ブックマークに登録
DeepSeek-OCR: オープンソースの光学式文字認識 (OCR) ツール
DeepSeek-OCRは、DeepSeek-AIによって開発され、オープンソース化された光学式文字認識（OCR）ツールです。大規模言語モデル（LLM）の観点から視覚コーダーの役割を再考する「文脈的光学圧縮」と呼ばれる新しいアプローチを提案しています。このツールは、単に...
3.1 Kをとおして0表彰される
0ブックマークに登録
OmniInsert: マスクなしでビデオに参照画像を挿入するツール
OmniInsertは、ByteDance Intelligent Creation Labによって開発された研究プロジェクトです。マスクを使用することなく、あらゆる参照オブジェクトをビデオにシームレスに挿入するツールである。従来のビデオ編集プロセスでは、ビデオに新しいオブジェクトを追加したい場合、通常、手作業で正確な「マスク」を作成し、フレームアウトする必要がありました。.
2.4 Kをとおして0表彰される
0ブックマークに登録
Wan2.2-S2V-14B：音声駆動型キャラクター口パク同期のための映像生成モデル
Wan2.2-S2V-14Bは、Wan-AIチームによって開発された大規模なAIモデルで、音声、テキスト、画像に基づく高品質なビデオの生成に特化しています。革新的なMixed Expert（MoE）アーキテクチャを採用し、27Bのモデルパラメータを持ちますが、実行時にアクティブになるのは14Bのみで、パフォーマンスと計算コストのバランスを効果的に取っています。 ...
3.3 Kをとおして1表彰される
0ブックマークに登録
SpatialLM：部屋を掃引すると、AIが自動的に3Dモデルを描画します！
SpatialLMは、3次元（3D）点群データを処理するために特別に設計された大規模な言語モデルである。その中核機能は、非構造化3D幾何学データを理解し、構造化3Dシーン表現に変換することである。これらの構造化された出力には、建築要素（壁、ドア、窓など）のほか、方位とその意味カテゴリを持つオブジェクトのバウンディングボックスが含まれる。多くのニーズとは対照的に...
2.8 Kをとおして0表彰される
0ブックマークに登録
VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS（Text-to-Speech）モデルです。特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...
6.0 Kをとおして3表彰される
0ブックマークに登録
Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデル
Grok-2は、イーロン・マスクのxAIが2024年に開発した第2世代のマクロ言語モデルである。このモデルの主な特徴は、より効率的に情報を処理するために設計されたMoE（Mixture-of-Experts）アーキテクチャである。簡単に言えば、モデル内に複数の「専門家」が存在するということだ。
3.8 Kをとおして0表彰される
0ブックマークに登録
Baichuan-M2：ヘルスケアにおける拡張推論のための大規模言語モデル
Baichuan-M2は、Baichuan Intelligence社の320億(32B)のパラメータを持つオープンソースの大規模言語モデルです。このモデルは医療分野に焦点を当て、実世界の医療推論タスクを処理するように設計されています。Qwen2.5-32Bモデルをベースにしており、革新的な「大規模言語モデル」を導入することで開発されました。.
3.6 Kをとおして0表彰される
0ブックマークに登録
Genie 3: リアルタイムで相互作用できる仮想世界の生成
Genie 3は、Google DeepMindが公開した汎用世界モデル（ワールドモデル）で、仮想環境のシミュレーションと作成におけるAIの最新の進歩を象徴するものである。このモデルの核となる特徴は、テキスト記述のみに基づいてリアルタイムのインタラクションをサポートする多様でダイナミックな世界を生成できることである。ユーザーは、この...
3.0 Kをとおして0表彰される
0ブックマークに登録
Seed-OSS：長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデル
Seed-OSSは、ByteDanceのSeedチームによって開発されたオープンソースの大規模言語モデルのシリーズで、長いコンテキスト処理、推論機能、エージェントタスクの最適化に焦点を当てています。モデルには360億個のパラメータが含まれ、わずか12兆個のトークンで学習されます。複数のメインストリームベンチマークで優れた性能を発揮し、...
3.9 Kをとおして0表彰される
0ブックマークに登録
HRM：複雑な推論のための階層的推論モデル
HRM（Hierarchical Reasoning Model）は、人工知能分野における複雑な推論タスクを解くために設計された、わずか2700万個のパラメータを持つ階層的推論モデルである。このモデルの設計は、人間の脳の階層的でマルチタイムスケールな情報処理にヒントを得ている。これは、高レベルモジュール（...
2.9 Kをとおして0表彰される
0ブックマークに登録
DeepSeek-V3.1-Base：複雑なタスクを効率的に処理する大規模言語モデル
DeepSeek-V3.1-Baseは、DeepSeekによって開発され、Hugging Faceプラットフォーム上でリリースされたオープンソースの大規模言語モデルで、自然言語処理タスク用に設計されています。6850億のパラメータを持ち、複数のデータ型（BF16、F8_E4M3、F32）をサポートし、...
3.4 Kをとおして1表彰される
0ブックマークに登録
Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Editは、Alibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、その中核機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることです。このモデルは、視覚的意味理解と...
4.7 Kをとおして0表彰される
0ブックマークに登録
GLM-4.5V：画像や動画を理解しコードを生成できるマルチモーダル対話モデル
GLM-4.5VはZhipu AI (Z.AI)によって開発された新世代の視覚言語メガモデル(VLM)です。このモデルは、MOEアーキテクチャを使用したフラッグシップ・テキストモデルGLM-4.5-Airをベースに構築されており、120億の活性化パラメータを含む1060億の総パラメータを備えています。GLM-4.5Vは、画像やテキストを処理するだけでなく、視覚的...
4.9 Kをとおして0表彰される
0ブックマークに登録
Qwen-Image：正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル（MMDiT）で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理（特に中国語と英語）と画像編集に優れています。このモデルは、リアル、アニメ、高精細ポスターなどの幅広いアートスタイルをサポートしています。.
5.1 Kをとおして0表彰される
0ブックマークに登録
MiniMax、Speech 2.5をリリース：音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式データによると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数が向上している。人工知能生成コンテンツ（AIGC）の分野では、テキスト...
3.5 Kをとおして0表彰される
0ブックマークに登録
KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成（TTS）モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。
4.5 Kをとおして0表彰される
0ブックマークに登録

基本モデル

クイック照会ステーションAIツール