
OmniInsert: マスクなしでビデオに参照画像を挿入するツール
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版(Mask)就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中,如果想在视频里加入一个新对象,通常需要手动创建一个精确的“蒙版”来框出这个对...

Qwen-Image-Edit: テキストコマンドに基づく画像編集AIモデル
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉语义理解和...

Qwen-Image:正確なテキストレンダリングで忠実度の高い画像を生成するAIツール
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

SkyworkUniPic: 統合処理画像理解と生成のためのオープンソースモデル
SkyworkUniPicは、SkyworkAIによって開発されたオープンソースのマルチモーダルモデルで、画像理解、テキスト生成画像、画像編集に焦点を当てています。単一の1億5000万パラメータ・アーキテクチャを使用して、3つの視覚言語タスクを統合しています。ユーザーは、RTX 4090のような民生用GPUで102を実行することができます...

FLUX.1 Krea:非常にリアルな画像を生成する無料のオープンソースツール
FLUX.1 Krea [dev]は、Black Forest LabsがKrea AIと共同で開発したオープンソースの画像生成ツールで、Hugging Faceプラットフォームでホストされています。120億パラメータの整流フロー変換をベースにしています。

Diffuman4D:疎なビデオから忠実度の高い4D人体ビューを生成する
Diffuman4Dは、浙江大学のZJU3DV研究チームによって開発されたプロジェクトで、スパースビュー映像から高忠実度の4D人体ビューを生成することに焦点を当てている。このプロジェクトでは、時空間拡散モデルと4DGS(4D Gaussian Splatting)技術を組み合わせることで、スパースな入力映像を生成する従来の手法の難点を解決している。

FLUX.1 KontextとBFL Playgroundを発表
本日、FLUX.1 Kontextをリリースしました。FLUX.1 Kontextは、画像の生成と編集をサポートする生成フロー・マッチング・モデルのセットです。既存のテキストベースの画像生成モデルとは異なり、FLUX.1 Kontextファミリーは、文脈依存の画像生成をサポートします。

PartCrafter:1枚の画像から編集可能な3D部品モデルを生成
PartCrafter 是一个创新的开源项目,专注于从单张RGB图片生成可编辑的3D零件模型。它采用先进的结构化3D生成技术,通过单一图像同时生成多个具有语义意义的3D零件,适用于游戏开发、产品设计等领域。项目基于预训练的3D网格扩散变换器...

ハイドリーム-I1
HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采用MIT许可证...

イメージ4
Google DeepMind 近期推出的 Imagen 4 模型,作为其图像生成技术的最新迭代,正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展,致力于将用户的想象力以前所未有的方式变为现实。目前,用...

StarVector: 画像とテキストからSVGベクターグラフィックスを生成するための基本モデル
StarVector 是一个开源项目,它由 Juan A. Rodriguez 等开发者创建,目的是将图像和文字转化为可缩放矢量图形(SVG)。这个工具使用视觉语言模型,能够理解图像内容和文字指令,生成高质量的 SVG 代码。它的核心特点是...

テキスト
AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024会议上获得Spotlight荣誉。AnyText的...

オムニジェン
OmniGen 是一个由 VectorSpaceLab(智源) 开发的“通用”图像生成模型,允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户可以上传最多三张图...

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル
综合介绍 CogView3 是由清华大学和智囊团队(智谱清言)开发的先进文本生成图像系统。它基于级联扩散模型,通过多阶段生成高分辨率图像。CogView3 的主要特点包括多阶段生成、创新架构和高效性能,适用于艺术创作、广告设计、游戏开发等多...
トップに戻る