テキストモデル

 ウェブサイトを投稿する

Grok-2: xAIのオープンソースハイブリッドエキスパート大規模言語モデル
Grok-2は、イーロン・マスクのxAIが2024年に開発した第2世代のマクロ言語モデルである。このモデルの主な特徴は、より効率的に情報を処理するために設計されたMoE（Mixture-of-Experts）アーキテクチャである。簡単に言えば、モデル内に複数の「専門家」が存在するということだ。
185をとおして0表彰される
0ブックマークに登録
Seed-OSS：長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデル
Seed-OSSは、ByteDance社のSeedチームによって開発されたオープンソースの大規模言語モデルのシリーズで、長い文脈処理、推論機能、エージェントタスクの最適化に焦点を当てています。モデルには360億個のパラメータが含まれ、わずか12兆個のトークンで学習され、いくつかの主要なベンチマークで良好な性能を発揮し、......をサポートしています。
308をとおして0表彰される
0ブックマークに登録
DeepSeek-V3.1-Base：複雑なタスクを効率的に処理する大規模言語モデル
DeepSeek-V3.1-Baseは、DeepSeekによって開発され、Hugging Faceプラットフォーム上でリリースされたオープンソースの大規模言語モデルで、自然言語処理タスク用に設計されています。6850億のパラメータを持ち、複数のデータ型（BF16、F8_E4M3、F32）をサポートし、...
506をとおして0表彰される
0ブックマークに登録
GPT-OSS：OpenAIの効率的推論のためのオープンソース・ビッグモデル
GPT-OSSはOpenAIのオープンソース言語モデルファミリーで、gpt-oss-120bとgpt-oss-20bがあり、それぞれ1170億と2100億のパラメータを持ち、Apache 2.0ライセンスでライセンスされている。
345をとおして0表彰される
0ブックマークに登録
GLM-4.5: 知的推論とコード生成をサポートするオープンソースのマルチモーダル大規模モデル
GLM-4.5は、zai-orgによって開発されたオープンソースのマルチモーダルグランド言語モデルで、知的推論、コード生成、知的身体タスクのために設計されています。GLM-4.5(3,550億パラメータ、320億アクティブパラメータ)、GLM-4.5-Air(1,060億パラメータ、120億アクティブパラメータ)、その他いくつかの...
6270表彰される
0ブックマークに登録
Qwen3-235B-A22B-Thinking-2507: 複雑な推論をサポートする大規模言語モデル
Qwen3-235B-A22B-Thinking-2507はAlibaba Cloud Qwenチームによって開発された大規模言語モデルで、2025年7月25日にリリースされ、Hugging Faceプラットフォームでホストされています。複雑な推論タスクに重点を置き、最大256K（262,144）トークンをサポートします。
453をとおして0表彰される
0ブックマークに登録
dots.llm1: リトル・レッド・ブックがオープンソース化した最初のMoE大規模言語モデル
rednote-hilab/dots.llm1.baseは、Little Red Bookによってオープンソース化され、Hugging Faceプラットフォームでホストされている最初の大きな言語モデルdots.llm1です。このモデルは1420億のパラメータを持つMixed Expert (MoE) アーキテクチャを採用し、推論時に起動されるパラメータは140億のみで、高性能と低コストのバランスをとっています。
319をとおして0表彰される
0ブックマークに登録
Jan-nano：軽量で効率的なテキスト生成モデル
Jan-nanoはQwen3アーキテクチャ上で最適化された40億パラメータの言語モデルであり、Menlo Research社によって開発され、Hugging Faceプラットフォーム上でホストされている。効率的なテキスト生成のために設計されており、ローカル環境や組み込み環境向けに、小さなサイズと長いコンテキスト処理能力を兼ね備えています。このモデルは...
331をとおして0表彰される
0ブックマークに登録
NextCoder-32B: コード編集と最適化をサポートするオープンソースのビッグモデル
NextCoder-32Bは、Microsoftによって開発され、Hugging Faceプラットフォームでリリースされたオープンソースのエディトリアルビッグモデルです。Qwen2.5モデルをベースに、Selective Knowledge Transfer (SeleKT)技術によって最適化されており、コード生成、...
270をとおして0表彰される
0ブックマークに登録
DeepSeek-TNG-R1T2-Chimera: ドイツTNG社がDeepSeekの機能強化を発表
DeepSeek-TNG-R1T2-Chimeraは、TNG Technology Consulting GmbHによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの大規模言語モデルです。このモデルは2025年7月2日にリリースされ、D...
1.6 Kをとおして0表彰される
0ブックマークに登録
ERNIE 4.5
ERNIE4.5は、PaddlePaddleフレームワークに基づいてBaiduによって開発されたオープンソースの大規模モデルファミリーであり、0.3Bから424Bパラメータまでの幅広いモデルをカバーし、テキスト処理、画像生成、マルチモーダルタスクをサポートする。このプロジェクトはGitHubでホストされており、Hugging Faceと組み合わせることで、...
631をとおして0表彰される
0ブックマークに登録
Hunyuan-A13B: 超長文文脈と知的推論のための効率的なオープンソース大規模言語モデル
Hunyuan-A13Bは、Tencentのハイブリッドチームによって開発されたオープンソースの大規模言語モデルであり、Mixed Expert（MoE）アーキテクチャ設計に基づいている。Hunyuan-A13Bは256Kの超長文脈処理をサポートし、...
919をとおして0表彰される
0ブックマークに登録
Qwen3をリリース：深く考え、素早く対応する新世代のビッグ・ランゲージ・モデル
大規模言語モデルの分野に新しい仲間が加わった。最近、大規模言語モデルのQwenファミリーが最新バージョンQwen3をリリースした。開発チームによると、そのフラッグシップモデルであるQwen3-235B-A22Bは、コーディング能力、数学能力、汎用能力のベンチマークにおいて、DeepSeek-R1、o1、o3に匹敵することを示している。
1.3 Kをとおして0表彰される
0ブックマークに登録

テキストモデル

クイック照会ステーションAIツール