Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Editは、Alibaba Tongyi Qianqianチームによって開発された画像編集AIモデルである。 200億のパラメータを持つQwen-Imageモデルに基づいて学習され、そのコア機能は、ユーザーが簡単な中国語または英語のテキストコマンドで画像を修正できるようにすることです。 このモデルはまた、視覚的...
Qwen-Image:正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Imageは、Qwenチームによって開発された20Bパラメトリックマルチモーダル拡散モデル(MMDiT)で、忠実度の高い画像生成と正確なテキストレンダリングに重点を置いています。複雑なテキスト処理(特に中国語と英語)と画像編集に優れています。このモデルは、写実的、...など様々なアートスタイルをサポートしています。
SkyworkUniPic: 統合処理画像理解と生成のためのオープンソースモデル
SkyworkUniPicは、SkyworkAIによって開発されたオープンソースのマルチモーダルモデルで、画像理解、テキスト生成画像、画像編集に焦点を当てています。単一の1億5000万パラメータ・アーキテクチャを使用して、3つの視覚言語タスクを統合しています。ユーザーは、RTX 4090のような民生用GPUで102を実行することができます...
FLUX.1 Krea:非常にリアルな画像を生成する無料のオープンソースツール
FLUX.1 Krea [dev]は、Black Forest LabsがKrea AIと共同で開発したオープンソースの画像生成ツールで、Hugging Faceプラットフォームでホストされています。120億パラメータの整流フロー変換をベースにしています。
Diffuman4D:疎なビデオから忠実度の高い4D人体ビューを生成する
Diffuman4Dは、浙江大学のZJU3DV研究チームによって開発されたプロジェクトで、スパースビュー映像から高忠実度の4D人体ビューを生成することに焦点を当てている。このプロジェクトでは、時空間拡散モデルと4DGS(4D Gaussian Splatting)技術を組み合わせることで、スパースな入力映像を生成する従来の手法の難点を解決している。
FLUX.1 KontextとBFL Playgroundを発表
本日、FLUX.1 Kontextをリリースしました。FLUX.1 Kontextは、画像の生成と編集をサポートする生成フロー・マッチング・モデルのセットです。既存のテキストベースの画像生成モデルとは異なり、FLUX.1 Kontextファミリーは、文脈依存の画像生成をサポートします。
PartCrafter:1枚の画像から編集可能な3D部品モデルを生成
PartCrafterは、1枚のRGB画像から編集可能な3Dパーツモデルを生成することに特化した革新的なオープンソースプロジェクトです。先進的な構造化3D生成技術を使用し、1つの画像から意味的に意味のある複数の3Dパーツを同時に生成します。このプロジェクトは、事前学習...
ハイドリーム-I1
HiDream-I1は、170億ものパラメータを持つオープンソースの画像生成ベースモデルで、高品質な画像を素早く生成することができます。ユーザーはテキストによる説明を入力するだけで、リアル、カートゥーン、アーティスティックなど様々なスタイルの画像を生成できる。HiDream.aiチームによって開発され、GitHubでホストされているこのプロジェクトは、...
イメージ4
グーグル・ディープマインド(Google DeepMind)が最近発表したImagen 4モデルは、同社の画像生成技術の最新版であり、急速に業界の注目の的となっている。このモデルは、画像生成の豊かさ、ディテールの正確さ、スピードを大幅に向上させ、これまでにない方法でユーザーのイマジネーションに命を吹き込むことに取り組んでいる。
StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル
StarVectorは、画像やテキストをScalable Vector Graphics(SVG)に変換するために、Juan A. Rodriguezなどの開発者によって作成されたオープンソースプロジェクトです。このツールは、画像コンテンツとテキスト命令を理解する視覚言語モデルを使用して、高品質のSVGコードを生成します。そのコア...
テキスト
AnyTextは拡散モデルに基づいて開発された画期的な多言語ビジュアルテキスト生成・編集ツールです。画像の中に自然で高品質な多言語テキストを生成し、柔軟なテキスト編集機能をサポートします。研究者チームによって開発され、ICLR 2024カンファレンスでSpotlight栄誉賞を受賞した。
オムニジェン
OmniGenはVectorSpaceLabによって開発された「ユニバーサル」な画像生成モデルで、ユーザーはシンプルなテキストプロンプトやマルチモーダル入力で、多様でコンテクストに富んだビジュアルを作成することができます。特に文字認識や一貫した文字レンダリングを必要とするシーンに適しています。ユーザー...
CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル
包括的な紹介 CogView3は清華大学とシンクタンクチーム(Chi Spectrum Qingyan)によって開発された先進的なテキスト生成画像システムです。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、芸術創作のための効率的なパフォーマンスなどです。
トップに戻る