
xAI Grok Imagine API:制作環境向けのすぐに使えるマルチモーダル音声・映像生成サービス
2026年1月、xAIは開発者と企業向けのプロダクショングレードのマルチモーダルビデオ生成サービスであるGrok Imagine APIを正式に開始した。xAIの内部で開発された「Aurora」モデルに基づいて構築されたこのサービスの中核機能は、...

OmniInsert: マスクなしでビデオに参照画像を挿入するツール
OmniInsertは、ByteDance Intelligent Creation Labによって開発された研究プロジェクトです。マスクを使用することなく、あらゆる参照オブジェクトをビデオにシームレスに挿入するツールである。従来のビデオ編集プロセスでは、ビデオに新しいオブジェクトを追加したい場合、通常、手作業で正確な「マスク」を作成し、フレームアウトする必要がありました。.

Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Editは、Alibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、その中核機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることです。 このモデルは、視覚的意味理解と...

Qwen-Image:正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル(MMDiT)で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理(特に中国語と英語)と画像編集に優れています。このモデルは、リアル、アニメ、高精細ポスターなどの幅広いアートスタイルをサポートしています。.

SkyworkUniPic: 統合処理画像理解と生成のためのオープンソースモデル
SkyworkUniPicは、SkyworkAIによって開発されたオープンソースのマルチモーダルモデルで、画像理解、テキスト生成画像、画像編集に焦点を当てています。単一の1億5000万パラメータ・アーキテクチャを使用して、3つの視覚言語タスクを統合しています。ユーザーは、RTX 4090のような民生用GPUで102を実行することができます...

FLUX.1 Krea:非常にリアルな画像を生成する無料のオープンソースツール
FLUX.1 Krea [dev]は、Black Forest LabsがKrea AIと共同で開発したオープンソースの画像生成ツールで、Hugging Faceプラットフォームでホストされています。120億パラメータの整流フロー変換をベースにしています。

Diffuman4D:疎なビデオから忠実度の高い4D人体ビューを生成する
Diffuman4Dは、浙江大学のZJU3DV研究チームによって開発されたプロジェクトで、スパースビュー映像から高忠実度の4D人体ビューを生成することに焦点を当てている。このプロジェクトでは、時空間拡散モデルと4DGS(4D Gaussian Splatting)技術を組み合わせることで、スパースな入力映像を生成する従来の手法の難点を解決している。

FLUX.1 KontextとBFL Playgroundを発表
本日、FLUX.1 Kontextをリリースしました。FLUX.1 Kontextは、画像の生成と編集をサポートする生成フロー・マッチング・モデルのセットです。既存のテキストベースの画像生成モデルとは異なり、FLUX.1 Kontextファミリーは、文脈依存の画像生成をサポートします。

PartCrafter:1枚の画像から編集可能な3D部品モデルを生成
PartCrafterは、1枚のRGB画像から編集可能な3Dパーツモデルを生成することに特化した革新的なオープンソースプロジェクトです。先進的な構造化3D生成技術を使い、1つの画像から意味的に意味のある複数の3Dパーツを同時に生成し、ゲーム開発、製品デザイン、その他の分野に適しています。このプロジェクトは、事前に訓練された3Dメッシュ拡散変換器に基づいています...

HiDream-I1
HiDream-I1は、170億のパラメータを持つオープンソースの画像生成ベースモデルで、高品質の画像を素早く生成することができます。ユーザーはテキストの説明を入力するだけで、リアル、漫画、アートなど様々なスタイルの画像を生成することができます。このプロジェクトはHiDream.aiチームによって開発され、MITライセンスの下でGitHubにホストされています。.

Imagen 4
Google DeepMindが最近発表したImagen 4モデルは、同社の画像生成技術の最新版であり、急速に業界の注目の的となっている。このモデルは、画像生成の豊かさ、ディテールの正確さ、スピードを大幅に向上させ、これまでにない方法でユーザーの想像力に命を吹き込むことに取り組んでいる。現在、...

StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル
StarVectorは、画像やテキストをScalable Vector Graphics(SVG)に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキスト命令を理解する視覚言語モデルを使用して、高品質のSVGコードを生成します。核となる機能は...

AnyText
AnyTextは拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究者チームによって開発され、ICLR 2024カンファレンスでSpotlightの栄誉に輝いた。.

OmniGen
OmniGenはVectorSpaceLabによって開発された “ユニバーサル ”な画像生成モデルで、ユーザーは簡単なテキストプロンプトやマルチモーダル入力で、多様でコンテクストに富んだビジュアルを作成することができます。キャラクターの識別や一貫したキャラクターレンダリングを必要とするシーンに特に適しています。ユーザーは最大3つの画像をアップロードすることができます...

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル
包括的な紹介 CogView3は清華大学とシンクタンクチーム(Smart Spectrum Qingyan)によって開発された先進的なテキスト生成画像システムである。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスであり、アート制作、広告デザイン、ゲーム開発、その他多くの用途に適しています。.
トップに戻る