
SpatialLM:部屋を掃引すると、AIが自動的に3Dモデルを描画します!
SpatialLMは、3次元(3D)点群データを処理するために特別に設計された大規模な言語モデルである。その中核機能は、非構造化3D幾何学データを理解し、構造化3Dシーン表現に変換することである。これらの構造化された出力には、建築要素(壁、ドア、窓など)や、方向性を持つオブジェクトが含まれる。

Baichuan-M2:ヘルスケアにおける拡張推論のための大規模言語モデル
Baichuan-M2は、Baichuan Intelligence社の320億(32B)のパラメータを持つオープンソースの大規模言語モデルです。 このモデルは医療分野に焦点を当て、実世界の医療推論タスクを処理するように設計されています。Qwen2.5-32Bモデルをベースにしており、革新的な "Large Validator System" (L...

Genie 3: リアルタイムで相互作用できる仮想世界の生成
Genie 3は、Google DeepMindが公開した汎用世界モデル(ワールドモデル)で、仮想環境のシミュレーションと作成のためのAIの最新の進歩を象徴するものである。このモデルの核となる特徴は、テキストによる記述だけで、リアルタイムのインタラクションをサポートする多様でダイナミックな世界を生成できることである。

HRM:複雑な推論のための階層的推論モデル
HRM(Hierarchical Reasoning Model)は、人工知能分野における複雑な推論タスクを解くために設計された、わずか2700万個のパラメータを持つ階層的推論モデルである。モデルの設計は、人間の脳の階層的でマルチタイムスケールな情報処理にヒントを得ている。 このモデルは、高レベルのモジュール(負... 続きを読む

シードの拡散:次世代アーキテクチャのための高速言語モデルの検証
Seed Diffusionは、ByteDance Seedチームが清華大学知能産業研究院(AIR)と共同で立ち上げた実験的言語モデルです。このウェブサイトは、このモデルの技術実証プラットフォームです。このモデルは離散拡散技術に基づいており、主な目的は、次世代の言語モデルの基礎となるフレームワークを探求することです。

HunyuanWorld-1.0: テキストや画像からインタラクティブな360°3D世界を生成
HunyuanWorld-1.0は、TencentのHunyuanチームによって開発されたオープンソースプロジェクトで、テキスト記述や単一の画像を通してインタラクティブな360°3D世界を生成することを目的としています。パノラマエージェント生成、セマンティックレイヤリング、階層的3D再構成技術を使って、高品質で探索可能な3Dシーンを生成します。このプロジェクトは、Fluxフレームワークに基づいています。

Qwen3-MT:92言語に対応した知的翻訳ツール
Qwen3-MTはAlibaba Cloud Qwenチームによって開発されたインテリジェント翻訳ツールで、強力なQwen3 Big Language Modelに基づいています。92の言語と主要な方言の翻訳をサポートし、世界人口の95%以上をカバーしています。ユーザーは、Qwen APIまたはオンライン・デモ・ページを通じて、その効率的な翻訳を体験することができます。

OpenMed:ヘルスケアにおける無料のAIモデルのためのオープンソースプラットフォーム
OpenMedは、ヘルスケアとライフサイエンスに特化したオープンソースのAIモデリングプラットフォームで、Hugging Face上でホストされている。臨床テキストや研究文献から薬、病気、遺伝子、解剖学的構造などの重要な情報を抽出することに焦点を当てた、380以上の無料の名前付き固有表現認識(NER)モデルを提供している。

Seed-X-7B:効率的な多言語翻訳のための大規模モデル
Seed-X-7Bは、ByteDanceのSeedチームによって開発されたオープンソースの多言語翻訳大規模言語モデルで、効率的で正確な翻訳機能を提供することに重点を置いています。7Bのパラメータを持つMistralアーキテクチャをベースとしており、インターネット、テクノロジー、電子商取引、生物医学など幅広い分野をカバーする28言語の翻訳をサポートしています。

Qwen3-Coder: オープンソースコード生成とインテリジェントプログラミングアシスタント
Qwen3-Coderは、Alibaba Cloud Qwenチームによって開発されたオープンソースの大規模言語モデルファミリーで、コード生成とインテリジェントプログラミングに焦点を当てています。コア製品はQwen3-Coder-480B-A35B-Instructで、480億のパラメータを持つハイブリッド専門家モデル(MoE)です。

EduChat:オープンソースの教育対話モデル
EduChatは、華東師範大学のICALKチームによって開発されたオープンソースの教育対話モデルです。教育シナリオに焦点を当て、中国語と英語の対話をサポートし、学生、教師、研究者にインテリジェントな対話ツールを提供することを目的としている。このモデルは、LLaMAやQwenなどのオープンソースフレームワークをベースにしており、多数の教育ドメインデータを通じて...

MedGemma: 医療テキストと画像理解のためのオープンソースAIモデル集
MedGemmaは、GoogleがHugging Faceプラットフォーム上で公開しているオープンソースのAIモデル群で、医療分野におけるテキストと画像の理解に焦点を当てている。Gemma 3モデルをベースにしており、開発者が医療関連のAIアプリケーションを構築するのを助けるように設計されている。MedGemmaは様々なモデルのバリエーションを提供している。

Jan-nano:軽量で効率的なテキスト生成モデル
Jan-nanoはQwen3アーキテクチャ上で最適化された40億パラメータの言語モデルであり、Menlo Research社によって開発され、Hugging Faceプラットフォーム上でホストされている。効率的なテキスト生成のために設計されており、ローカル環境や組み込み環境向けに、小さなサイズと長いコンテキスト処理能力を兼ね備えています。このモデルは...

Zerank-1: 検索結果の精度を向上させる並べ替えモデル
Zerank-1はZeroEntropyによって開発された高度なリランカーモデルである。 情報検索や意味検索システムにおいて、「第二のフィルター」として重要な役割を果たす。 第一に、予備的な検索システム(例えばベクトル検索)は、大量の文書を素早く...

ウインドサーフ SWE-1
SWE-1:ソフトウェアエンジニアリングのための新世代の最先端モデル 最近、待望のSWE-1モデルファミリーがリリースされた。ソフトウェアエンジニアリングプロセス全体を最適化するために設計されたこのモデルファミリーは、コードを書くという従来の作業をはるかに超えたものである。 現在、SWE-1ファミリーは、次の3つのモデルで構成されています。

ラワゴット
LaWGPTは、南京大学の機械学習・データマイニング研究グループが支援するオープンソースプロジェクトで、中国の法律知識に基づいた大規模な言語モデルの構築に取り組んでいる。一般的な中国語モデル(Chinese-LLaMAやChatGLMなど)に基づき、法律領域における独自の単語リストを拡張し、大規模な...

Hibiki:リアルタイム音声翻訳モデル、元の音声の特徴を保持したストリーミング翻訳
響は、Kyutai Labsによって開発された高忠実度のリアルタイム音声翻訳モデルです。従来のオフライン翻訳機とは異なり、Hibikiはターゲット言語の自然な音声翻訳を生成し、ユーザーが話している間にリアルタイムでテキスト翻訳を提供することができます。このモデルはマルチストリームアーキテクチャを採用しており、入力言語を同時に処理することができます。
トップに戻る