Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Infinity ist ein bahnbrechendes System zur Erzeugung hochauflösender Bilder, das vom FoundationVision-Team entwickelt wurde. Das Kernmerkmal von Infinity ist die Verwendung eines unbegrenzten Vokabulars von Disambiguatoren und Klassifikatoren zusammen mit dem Selbstkorrekturmechanismus auf Bit-Ebene, der in der Lage ist, ultrahochqualitative, realistische Bilder zu erzeugen. Das Projekt ist vollständig quelloffen und bietet eine Auswahl an Modellen mit 2B- bis 20B-Parameterskalen und unterstützt die Bilderzeugung bei Auflösungen von bis zu 1024×1024. Als Spitzenforschungsprojekt treibt Infinity nicht nur den technologischen Fortschritt auf dem Gebiet der Computer Vision voran, sondern bietet auch neue Lösungen für Bilderzeugungsaufgaben.

Infinity: bitweise autoregressive Modellierung zur Erzeugung hochauflösender Bilder für unbegrenzte hochauflösende Bilderzeugung-1

Tritt dem Discord-Kanal bei, um das Infinity-Bilderzeugungsmodell zu erleben!

 

Funktionsliste

  • 2B parametrisches Modell unterstützt die Erzeugung von Bildern in hoher Qualität mit einer Auflösung von bis zu 1024 x 1024
  • Bietet ein visuelles Lexikon mit unbegrenztem Wortschatz zur Unterstützung der Extraktion feinerer Bildmerkmale
  • Implementierung eines Selbstkorrekturmechanismus auf Bit-Ebene zur Verbesserung der Qualität und Genauigkeit der erzeugten Bilder
  • Unterstützt die flexible Auswahl mehrerer Modellgrößen (125M, 1B, 2B, 20B Parameter)
  • Bereitstellung einer interaktiven Schnittstelle, die den Benutzern die Durchführung von Experimenten zur Bilderzeugung erleichtert
  • Integriert in einen vollständigen Ausbildungs- und Bewertungsrahmen
  • Unterstützt die multidimensionale Bewertung der Modellleistung (GenEval, DPG, HPSv2.1 und andere Metriken)
  • Bietet eine Online-Demoplattform, auf der die Benutzer die Bilderzeugung direkt erleben können

 

Hilfe verwenden

1. ökologische Konfiguration

1.1 Grundlegende Anforderungen:

  • Python-Umgebung
  • PyTorch >= 2.5.1 (erfordert FlexAttention-Unterstützung)
  • Installieren Sie andere Abhängigkeiten über pip:pip3 install -r requirements.txt

2. die Verwendung von Modellen

2.1 Schnellstart:

  • Laden Sie das vortrainierte Modell von HuggingFace herunter: infinity_2b_reg.pth
  • Visual Segmenter herunterladen: infinity_vae_d32_reg.pth
  • Interaktive Bilderzeugung mit interactive_infer.ipynb

2.2 Konfiguration der Ausbildung:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Datenaufbereitung:

  • Die Trainingsdaten müssen im JSONL-Format aufbereitet werden
  • Jedes Datenelement enthält: Bildpfad, lange und kurze Textbeschreibung, Bildseitenverhältnis und andere Informationen
  • Beispieldatensätze werden vom Projekt als Referenz zur Verfügung gestellt

2.4 Bewertung des Modells:

  • Unterstützung für mehrere Bewertungsindikatoren:
    • ImageReward: Bewertung der menschlichen Präferenzen bei der Bilderzeugung
    • HPS v2.1: Bewertungsmetriken basierend auf 798K manuellen Rankings
    • GenEval: Auswertung von Text-Bild-Abgleich
    • FID: Bewertung der Qualität und Vielfalt der erzeugten Bilder

2.5 Online-Präsentation:

  • Besuchen Sie die offizielle Demo-Plattform: https://opensource.bytedance.com/gmpt/t2i/invite
  • Geben Sie eine Textbeschreibung ein, um ein entsprechendes hochwertiges Bild zu generieren
  • Unterstützt die Einstellung von mehreren Bildauflösungen und Generierungsparametern

3. erweiterte Funktionen

3.1 Selbstkorrekturmechanismen auf Bitebene:

  • Automatische Erkennung und Korrektur von Fehlern im Erzeugungsprozess
  • Verbesserung der Qualität und Genauigkeit der erzeugten Bilder

3.2 Erweiterungen des Modells:

  • Unterstützt flexible Skalierung der Modellgrößen
  • Es sind mehrere Modelle mit Parametern von 125M bis 20B erhältlich.
  • Anpassung an unterschiedliche Hardware-Umgebungen und Anwendungsanforderungen

4. vorsichtsmaßnahmen

  • Sicherstellen, dass die Hardware-Ressourcen den Modellanforderungen entsprechen
  • Groß angelegte Modelle erfordern ausreichend GPU-Speicher
  • Empfohlene High Performance Computing-Ausrüstung für die Ausbildung
  • Regelmäßige Kontrollen der Back-up-Ausbildung
  • Beachten Sie die Einhaltung des MIT-Open-Source-Protokolls
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch