海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

グーグル・ディープマインド(Google DeepMind)が最近発表したImagen 4モデルは、同社の画像生成技術の最新版であり、急速に業界の注目の的となっている。画像の豊かさ、ディテールの正確さ、生成スピードが大幅に進化したこのモデルは、これまでにない方法でユーザーのイマジネーションに命を吹き込むことを目指している。現在、ユーザーは以下のことができる。 ジェミニ WhiskやVertex AIなどのプラットフォームでImagen 4のパワーを体験してください。

 

コアコンピテンシー:リアリズム、明瞭さ、文章表現の新たな高み

イマージェン4は、多くのコアな次元で優れた性能を発揮している。

まずフォトリアリスティックこのモデルは、風景、植物、人、動物の実物に近い画像を生成することができます。このモデルは、風景、植物、人、動物の実生活に近いリアルな画像を細部まで生成することができます。

画像4-1
イメージ4-2

次ページ詳細Imagen 4は、豊かな色彩、質感、グラデーションを持つクローズアップのレンダリングが可能で、画像のテクスチャは、まるで指先にあるかのように感じられます。

イメージ 4-3
画像4-4

さらに高度なスペルとタイポグラフィ(高度なスペルとタイポグラフィ)機能。これにより、コミック、パッケージデザイン、コレクターズアイテムなどのコンテンツに、スペルの改善、より長いテキスト文字列、新しいレイアウトやスタイルで命を吹き込むことができるようになり、多くのAI画像ツールにとって大きな前進となった。

画像4-5

さらに、Imagen 4はより高い精度でレンダリングします。多様なアートスタイルフォトリアリズムや印象派から抽象画やイラストレーションまで。

画像4-6

 

イマージェン4の新機能:スピード、創造性、明瞭性のトリプルブースト

最新世代のイマージェン4は、大幅な機能向上をもたらした:

  • 超高速オプション(超高速オプション)この次期モデルは、前モデルの最大10倍のスピードが期待されており、ユーザーは何十ものクリエイティブなアイデアを瞬時にテストすることができます。これにより、クリエイティブの効率が大幅に向上することは間違いない。
  • ビジョンを実現する(实现您的愿景)カラー、スタイル、ディテール、テキストレンダリングが強化され、クリエイティブの幅がさらに広がります。
  • エクセプショナル・クラリティ(特別な透明度)クリエイティビティのために最適化されたImagen 4は、最大2K解像度の画像を高品質で出力します。

 

技術仕様とバージョン概要

には imagen-4-0-generate-preview-05-20 (プレビュー)と imagen-4.0-ultra-generate-exp-05-20 (Experimental Ultra)を例に、Imagen 4の技術力を垣間見ることができる。これらのモデルは、画像生成、プレビューの電子透かしと検証、ユーザー設定可能なセキュリティ設定、キュー・リライターによるキューの強化、キャラクター生成(プレビュー版の機能)をサポートしています。

しかし、現在のバージョン(例えば imagen-4-0-generate-preview-05-20)は、カスタム画像、商品/人/ペットの被写体のカスタマイズ、スタイルのカスタマイズ、コントロールのカスタマイズ、インストラクションのカスタマイズやスタイル変換、さらに様々な高度な画像編集機能(マスク編集、汚れ、商品画像の編集、解像度の向上など)、ネガティブキューを学習するための少数のサンプルの使用をまだサポートしていません。

幅広い画像スケールと解像度をサポート::

  • 1:1: 1024 x 1024
  • 3:4: 896 x 1280
  • 4:3: 1280 x 896
  • 9:16: 768×1408
  • 16:9: 1408 x 768

多くの主要言語をサポートする先端言語プレビュー版は英語で、簡体字中国語、繁体字中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語でご覧いただけます。

使用上の制限以下のような側面がある。 imagen-4-0-generate-preview-05-20 モデルでは、1プロジェクト1分あたりのAPIリクエストの最大数は20、リクエストごとに返される画像の最大数は4(テキストから画像への生成)、入力シンボルの最大数は480シンボルです。

 

ベンチマーキングとユーザーからのフィードバック

テストでは、ユーザーはImagenの最新バージョンを、以前のモデルや他の主流のテキスト画像変換モデルよりも好んだ。例えば、GenAI-Benchの人間による評価では、Imagen 4は全体的な好みのEloスコアを上回りました。 また、Product Huntのユーザーフィードバックでも、タイポグラフィ、カラー、ディテールの改善が確認されています。

画像4-1
画像4-1
画像4-1

 

創造的限界と継続的改善

イマージェン4は良好な結果を残したが、グーグル・ディープマインドは主要機能の改善に取り組んでいる最中であることを認めている。

  • 事実の提示拡散モデル自体は、大規模な言語モデルのような実世界の知識ベースを持っていません。複雑な構図を扱う場合、特に小さな顔、テキストレンダリング、微細な構造を含む画像では、ユーザがアーティファクトを観察する可能性があります。
  • センターイメージイマージェンでは、画像の中心に円を正確に配置するなど、完璧なセンタリング画像を作成するのに苦労することがあります。
  • 難易度のヒントイマーゲンは、明確な文字列の合図には確実に反応するが、顔文字やランダムな文字列のような無意味な合図に対しては、出力が予測できないことがある。

 

安全性と責任:内蔵SynthID

Google DeepMindは、データセット内の有害なコンテンツを最小限に抑え、有害な出力の可能性を低減するために、広範なフィルタリングとデータタグ付けを重視しています。チームはまた、コンテンツの安全性(子供の安全性を含む)と特徴付けのためのレッドチームテストと評価も行っている。

Imagen 4は、目に見えない電子透かしを画像に直接埋め込むことができるSynthIDツールを含む最新のプライバシーおよびセキュリティ機能を搭載してリリースされ、画像がAIによって生成されたかどうかを識別することが可能になりました。このイニシアチブは、AIによって生成されたコンテンツのトレーサビリティと透明性を向上させるために不可欠です。

 

キュー・エンジニアリングの重要性

Imagen 4のようなAI画像生成モデルの可能性を最大限に引き出すには、正確で詳細なキューが不可欠です。ユーザーは、被写体とその属性(ユニークなディテールや動きを含む)を明確に定義し、環境やコンテキスト、希望するアーティスティックなスタイル(フォトリアリスティック、ベクターアート、特定のアートジャンルなど)、希望するムードや雰囲気を指定する必要があります。カメラアングルや構図要素などのパラメータを追加することで、生成された結果を期待に近づけることができます。構造化された説明的な言語は、AIモデルが目標とするビジュアル・コンテンツを生成するよう導く鍵となります。

グーグル・ディープマインドのImagenモデル・ファミリーは、その中核において、大規模なモデルを使用している。 変圧器 言語モデルのテキストに対する深い理解と、拡散モデルの高忠実度画像生成における強力な能力が組み合わされている。Imagen 4の発売は、間違いなくAIGC分野に新たな息吹を吹き込み、画質、オーサリングツールの統合、責任あるAIの探求に対するそのアプローチは、AI画像生成の有望な未来を予感させる。

0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

受信箱

お問い合わせ

トップに戻る

ja日本語