Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデル
Grok-2は、イーロン・マスクのxAIが2024年に開発した第2世代のマクロ言語モデルである。このモデルの主な特徴は、より効率的に情報を処理するために設計されたMoE(Mixture-of-Experts)アーキテクチャである。簡単に言えば、モデル内に複数の「専門家」が存在するということだ。
Seed-OSS:長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデル
Seed-OSSは、ByteDance社のSeedチームによって開発されたオープンソースの大規模言語モデルのシリーズで、長い文脈処理、推論機能、エージェントタスクの最適化に焦点を当てています。モデルには360億個のパラメータが含まれ、わずか12兆個のトークンで学習され、いくつかの主要なベンチマークで良好な性能を発揮し、......をサポートしています。
DeepSeek-V3.1-Base:複雑なタスクを効率的に処理する大規模言語モデル
DeepSeek-V3.1-Baseは、DeepSeekによって開発され、Hugging Faceプラットフォーム上でリリースされたオープンソースの大規模言語モデルで、自然言語処理タスク用に設計されています。6850億のパラメータを持ち、複数のデータ型(BF16、F8_E4M3、F32)をサポートし、...
GPT-OSS:OpenAIの効率的推論のためのオープンソース・ビッグモデル
GPT-OSSはOpenAIのオープンソース言語モデルファミリーで、gpt-oss-120bとgpt-oss-20bがあり、それぞれ1170億と2100億のパラメータを持ち、Apache 2.0ライセンスでライセンスされている。
GLM-4.5: 知的推論とコード生成をサポートするオープンソースのマルチモーダル大規模モデル
GLM-4.5は、zai-orgによって開発されたオープンソースのマルチモーダルグランド言語モデルで、知的推論、コード生成、知的身体タスクのために設計されています。GLM-4.5(3,550億パラメータ、320億アクティブパラメータ)、GLM-4.5-Air(1,060億パラメータ、120億アクティブパラメータ)、その他いくつかの...
Qwen3-235B-A22B-Thinking-2507: 複雑な推論をサポートする大規模言語モデル
Qwen3-235B-A22B-Thinking-2507はAlibaba Cloud Qwenチームによって開発された大規模言語モデルで、2025年7月25日にリリースされ、Hugging Faceプラットフォームでホストされています。複雑な推論タスクに重点を置き、最大256K(262,144)トークンをサポートします。
dots.llm1: リトル・レッド・ブックがオープンソース化した最初のMoE大規模言語モデル
rednote-hilab/dots.llm1.baseは、Little Red Bookによってオープンソース化され、Hugging Faceプラットフォームでホストされている最初の大きな言語モデルdots.llm1です。このモデルは1420億のパラメータを持つMixed Expert (MoE) アーキテクチャを採用し、推論時に起動されるパラメータは140億のみで、高性能と低コストのバランスをとっています。
Jan-nano:軽量で効率的なテキスト生成モデル
Jan-nanoはQwen3アーキテクチャ上で最適化された40億パラメータの言語モデルであり、Menlo Research社によって開発され、Hugging Faceプラットフォーム上でホストされている。効率的なテキスト生成のために設計されており、ローカル環境や組み込み環境向けに、小さなサイズと長いコンテキスト処理能力を兼ね備えています。このモデルは...
NextCoder-32B: コード編集と最適化をサポートするオープンソースのビッグモデル
NextCoder-32Bは、Microsoftによって開発され、Hugging Faceプラットフォームでリリースされたオープンソースのエディトリアルビッグモデルです。Qwen2.5モデルをベースに、Selective Knowledge Transfer (SeleKT)技術によって最適化されており、コード生成、...
DeepSeek-TNG-R1T2-Chimera: ドイツTNG社がDeepSeekの機能強化を発表
DeepSeek-TNG-R1T2-Chimeraは、TNG Technology Consulting GmbHによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの大規模言語モデルです。このモデルは2025年7月2日にリリースされ、D...
ERNIE 4.5
ERNIE4.5は、PaddlePaddleフレームワークに基づいてBaiduによって開発されたオープンソースの大規模モデルファミリーであり、0.3Bから424Bパラメータまでの幅広いモデルをカバーし、テキスト処理、画像生成、マルチモーダルタスクをサポートする。このプロジェクトはGitHubでホストされており、Hugging Faceと組み合わせることで、...
Hunyuan-A13B: 超長文文脈と知的推論のための効率的なオープンソース大規模言語モデル
Hunyuan-A13Bは、Tencentのハイブリッドチームによって開発されたオープンソースの大規模言語モデルであり、Mixed Expert(MoE)アーキテクチャ設計に基づいている。Hunyuan-A13Bは256Kの超長文脈処理をサポートし、...
Qwen3をリリース:深く考え、素早く対応する新世代のビッグ・ランゲージ・モデル
大規模言語モデルの分野に新しい仲間が加わった。最近、大規模言語モデルのQwenファミリーが最新バージョンQwen3をリリースした。 開発チームによると、そのフラッグシップモデルであるQwen3-235B-A22Bは、コーディング能力、数学能力、汎用能力のベンチマークにおいて、DeepSeek-R1、o1、o3に匹敵することを示している。
トップに戻る