CosyVoice:アリ・オープンソース多言語クローン作成ツール
CosyVoiceは、高品質のテキスト音声合成(TTS)技術に焦点を当てた、オープンソースの多言語音声生成モデルです。多言語の音声合成をサポートし、ゼロサンプル音声生成、言語横断的な音声クローニング、きめ細かなセンチメント制御などの機能を提供します。Cos- yVoice 2.0は前バージョンと比較して、大幅に...
Qwen-TTS:中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練されており、イントネーション、発話速度、感情を自動的に調整する、自然で表現豊かな音声出力を備えています。
Kyutai:リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
DeepSeek-TNG-R1T2-Chimera: ドイツTNG社がDeepSeekの機能強化を発表
DeepSeek-TNG-R1T2-Chimeraは、TNG Technology Consulting GmbHによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの大規模言語モデルです。このモデルは2025年7月2日にリリースされ、D...
インデックス-アニソラ:Bilibiliオープンソースアニメビデオ生成ツール
Index-AniSoraは、ビリビリが開発しオープンソース化したアニメ動画生成モデルで、GitHubでホストされている。CogVideoX-5BとWan2.1-14Bをベースモデルとしており、アニメエピソード、国内オリジナルアニメ、漫画原作、VTubeなど、多様なアニメスタイルの動画生成をサポートしています。
GLM-4.1V-Thinking:マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学(THUDM)のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
ERNIE 4.5
ERNIE4.5は、PaddlePaddleフレームワークに基づいてBaiduによって開発されたオープンソースの大規模モデルファミリーであり、0.3Bから424Bパラメータまでの幅広いモデルをカバーし、テキスト処理、画像生成、マルチモーダルタスクをサポートする。このプロジェクトはGitHubでホストされており、Hugging Faceと組み合わせることで、...
Hunyuan-A13B: 超長文文脈と知的推論のための効率的なオープンソース大規模言語モデル
Hunyuan-A13Bは、Tencentのハイブリッドチームによって開発されたオープンソースの大規模言語モデルであり、Mixed Expert(MoE)アーキテクチャ設計に基づいている。Hunyuan-A13Bは256Kの超長文脈処理をサポートし、...
FLUX.1 KontextとBFL Playgroundを発表
本日、FLUX.1 Kontextをリリースしました。FLUX.1 Kontextは、画像の生成と編集をサポートする生成フロー・マッチング・モデルのセットです。既存のテキストベースの画像生成モデルとは異なり、FLUX.1 Kontextファミリーは、文脈依存の画像生成をサポートします。
PartCrafter:1枚の画像から編集可能な3D部品モデルを生成
PartCrafterは、1枚のRGB画像から編集可能な3Dパーツモデルを生成することに特化した革新的なオープンソースプロジェクトです。先進的な構造化3D生成技術を使用し、1つの画像から意味的に意味のある複数の3Dパーツを同時に生成します。このプロジェクトは、事前学習...
シーダンス 1.0
Seedance 1.0は、ByteDanceのSeedチームによって開発されたAIビデオ生成ツールで、テキストや画像を高品質のビデオコンテンツに変換することに重点を置いています。ユーザーはテキストの説明文を入力するか、画像をアップロードするだけで、Seedanceは最大解像度1080pの動画を生成することができ、クリエイティブなコンテンツ制作に適しています。
ジェマ3n
グーグルは、Gemma 3とGemma 3 QATをリリースし、包括的なAIのための足跡を拡大しようとしている。Gemma 3が開発者に強力なクラウドとデスクトップ機能をもたらしたとすれば、この2025年5月20日のリリースは...
ムービージェン 1.1
MoviiGen 1.1は、ZuluVisionによって開発されたオープンソースのAIツールで、テキストから高品質のビデオを生成することに重点を置いています。720Pと1080Pの解像度をサポートしており、特に映画のような視覚効果を必要とするプロのビデオ制作に適しています。簡単なテキスト説明から、自然でダイナミックな動画を生成することができます。
ハイドリーム-I1
HiDream-I1は、170億ものパラメータを持つオープンソースの画像生成ベースモデルで、高品質な画像を素早く生成することができます。ユーザーはテキストによる説明を入力するだけで、リアル、カートゥーン、アーティスティックなど様々なスタイルの画像を生成できる。HiDream.aiチームによって開発され、GitHubでホストされているこのプロジェクトは、...
イメージ4
グーグル・ディープマインド(Google DeepMind)が最近発表したImagen 4モデルは、同社の画像生成技術の最新版であり、急速に業界の注目の的となっている。このモデルは、画像生成の豊かさ、ディテールの正確さ、スピードを大幅に向上させ、これまでにない方法でユーザーのイマジネーションに命を吹き込むことに取り組んでいる。
ベーグル
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...
ミニマックス・スピーチ 02
AI技術の絶え間ない進化に伴い、パーソナライズされた非常に自然な音声対話は、多くの知的アプリケーションにとって重要な要件となっている。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、高度にリアルな感情表現を満たすという課題に依然として直面している。このような課題に対処するため...
ウインドサーフ SWE-1
SWE-1:ソフトウェアエンジニアリングのための新世代の最先端モデル 最近、待望のSWE-1モデルファミリーがリリースされた。ソフトウェアエンジニアリングプロセス全体を最適化するために設計されたこのモデルファミリーは、コードを書くという従来の作業をはるかに超えたものである。 現在、SWE-1ファミリーは、次の3つのモデルで構成されています。
Qwen3をリリース:深く考え、素早く対応する新世代のビッグ・ランゲージ・モデル
大規模言語モデルの分野に新しい仲間が加わった。最近、大規模言語モデルのQwenファミリーが最新バージョンQwen3をリリースした。 開発チームによると、そのフラッグシップモデルであるQwen3-235B-A22Bは、コーディング能力、数学能力、汎用能力のベンチマークにおいて、DeepSeek-R1、o1、o3に匹敵することを示している。