Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Werkzeugbibliothek

Infinity: bitweise autoregressive Modellierung der hochauflösenden Bilderzeugung für unbegrenzte hochauflösende Bilderzeugung

2024-12-26 1.1 K

Infinity是一个开创性的高分辨率图像生成框架,由FoundationVision团队开发。该项目通过创新的位级视觉自回归建模方法,突破了传统图像生成模型的限制。Infinity的核心特点是采用了无限词汇量的分词器和分类器,配合位级自校正机制,能够生成超高质量的真实感图像。项目完全开源,提供了从2B到20B参数规模的模型选择,支持最高1024×1024分辨率的图像生成。作为一个前沿的研究项目,Infinity不仅推动了计算机视觉领域的技术进步,也为图像生成任务提供了新的解决方案。

Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成-1

Tritt dem Discord-Kanal bei, um das Infinity-Bilderzeugungsmodell zu erleben!

 

Funktionsliste

  • 2B参数模型支持高达1024×1024分辨率的高质量图像生成
  • Bietet ein visuelles Lexikon mit unbegrenztem Wortschatz zur Unterstützung der Extraktion feinerer Bildmerkmale
  • Implementierung eines Selbstkorrekturmechanismus auf Bit-Ebene zur Verbesserung der Qualität und Genauigkeit der erzeugten Bilder
  • Unterstützt die flexible Auswahl mehrerer Modellgrößen (125M, 1B, 2B, 20B Parameter)
  • Bereitstellung einer interaktiven Schnittstelle, die den Benutzern die Durchführung von Experimenten zur Bilderzeugung erleichtert
  • Integriert in einen vollständigen Ausbildungs- und Bewertungsrahmen
  • Unterstützt die multidimensionale Bewertung der Modellleistung (GenEval, DPG, HPSv2.1 und andere Metriken)
  • Bietet eine Online-Demoplattform, auf der die Benutzer die Bilderzeugung direkt erleben können

 

Hilfe verwenden

1. ökologische Konfiguration

1.1 Grundlegende Anforderungen:

  • Python-Umgebung
  • PyTorch >= 2.5.1 (erfordert FlexAttention-Unterstützung)
  • Installieren Sie andere Abhängigkeiten über pip:pip3 install -r requirements.txt

2. die Verwendung von Modellen

2.1 Schnellstart:

  • Laden Sie das vortrainierte Modell von HuggingFace herunter: infinity_2b_reg.pth
  • Visual Segmenter herunterladen: infinity_vae_d32_reg.pth
  • Interaktive Bilderzeugung mit interactive_infer.ipynb

2.2 Konfiguration der Ausbildung:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Datenaufbereitung:

  • Die Trainingsdaten müssen im JSONL-Format aufbereitet werden
  • Jedes Datenelement enthält: Bildpfad, lange und kurze Textbeschreibung, Bildseitenverhältnis und andere Informationen
  • Beispieldatensätze werden vom Projekt als Referenz zur Verfügung gestellt

2.4 Bewertung des Modells:

  • Unterstützung für mehrere Bewertungsindikatoren:
    • ImageReward: Bewertung der menschlichen Präferenzen bei der Bilderzeugung
    • HPS v2.1: Bewertungsmetriken basierend auf 798K manuellen Rankings
    • GenEval: Auswertung von Text-Bild-Abgleich
    • FID: Bewertung der Qualität und Vielfalt der erzeugten Bilder

2.5 Online-Präsentation:

  • Besuchen Sie die offizielle Demo-Plattform: https://opensource.bytedance.com/gmpt/t2i/invite
  • Geben Sie eine Textbeschreibung ein, um ein entsprechendes hochwertiges Bild zu generieren
  • Unterstützt die Einstellung von mehreren Bildauflösungen und Generierungsparametern

3. erweiterte Funktionen

3.1 Selbstkorrekturmechanismen auf Bitebene:

  • Automatische Erkennung und Korrektur von Fehlern im Erzeugungsprozess
  • Verbesserung der Qualität und Genauigkeit der erzeugten Bilder

3.2 Erweiterungen des Modells:

  • Unterstützt flexible Skalierung der Modellgrößen
  • Es sind mehrere Modelle mit Parametern von 125M bis 20B erhältlich.
  • Anpassung an unterschiedliche Hardware-Umgebungen und Anwendungsanforderungen

4. vorsichtsmaßnahmen

  • Sicherstellen, dass die Hardware-Ressourcen den Modellanforderungen entsprechen
  • Groß angelegte Modelle erfordern ausreichend GPU-Speicher
  • Empfohlene High Performance Computing-Ausrüstung für die Ausbildung
  • Regelmäßige Kontrollen der Back-up-Ausbildung
  • Beachten Sie die Einhaltung des MIT-Open-Source-Protokolls

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch