Infinity是一个开创性的高分辨率图像生成框架,由FoundationVision团队开发。该项目通过创新的位级视觉自回归建模方法,突破了传统图像生成模型的限制。Infinity的核心特点是采用了无限词汇量的分词器和分类器,配合位级自校正机制,能够生成超高质量的真实感图像。项目完全开源,提供了从2B到20B参数规模的模型选择,支持最高1024×1024分辨率的图像生成。作为一个前沿的研究项目,Infinity不仅推动了计算机视觉领域的技术进步,也为图像生成任务提供了新的解决方案。

Tritt dem Discord-Kanal bei, um das Infinity-Bilderzeugungsmodell zu erleben!
Funktionsliste
- 2B参数模型支持高达1024×1024分辨率的高质量图像生成
- Bietet ein visuelles Lexikon mit unbegrenztem Wortschatz zur Unterstützung der Extraktion feinerer Bildmerkmale
- Implementierung eines Selbstkorrekturmechanismus auf Bit-Ebene zur Verbesserung der Qualität und Genauigkeit der erzeugten Bilder
- Unterstützt die flexible Auswahl mehrerer Modellgrößen (125M, 1B, 2B, 20B Parameter)
- Bereitstellung einer interaktiven Schnittstelle, die den Benutzern die Durchführung von Experimenten zur Bilderzeugung erleichtert
- Integriert in einen vollständigen Ausbildungs- und Bewertungsrahmen
- Unterstützt die multidimensionale Bewertung der Modellleistung (GenEval, DPG, HPSv2.1 und andere Metriken)
- Bietet eine Online-Demoplattform, auf der die Benutzer die Bilderzeugung direkt erleben können
Hilfe verwenden
1. ökologische Konfiguration
1.1 Grundlegende Anforderungen:
- Python-Umgebung
- PyTorch >= 2.5.1 (erfordert FlexAttention-Unterstützung)
- Installieren Sie andere Abhängigkeiten über pip:
pip3 install -r requirements.txt
2. die Verwendung von Modellen
2.1 Schnellstart:
- Laden Sie das vortrainierte Modell von HuggingFace herunter: infinity_2b_reg.pth
- Visual Segmenter herunterladen: infinity_vae_d32_reg.pth
- Interaktive Bilderzeugung mit interactive_infer.ipynb
2.2 Konfiguration der Ausbildung:
# 使用单条命令启动训练
bash scripts/train.sh
# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M
# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M
2.3 Datenaufbereitung:
- Die Trainingsdaten müssen im JSONL-Format aufbereitet werden
- Jedes Datenelement enthält: Bildpfad, lange und kurze Textbeschreibung, Bildseitenverhältnis und andere Informationen
- Beispieldatensätze werden vom Projekt als Referenz zur Verfügung gestellt
2.4 Bewertung des Modells:
- Unterstützung für mehrere Bewertungsindikatoren:
- ImageReward: Bewertung der menschlichen Präferenzen bei der Bilderzeugung
- HPS v2.1: Bewertungsmetriken basierend auf 798K manuellen Rankings
- GenEval: Auswertung von Text-Bild-Abgleich
- FID: Bewertung der Qualität und Vielfalt der erzeugten Bilder
2.5 Online-Präsentation:
- Besuchen Sie die offizielle Demo-Plattform: https://opensource.bytedance.com/gmpt/t2i/invite
- Geben Sie eine Textbeschreibung ein, um ein entsprechendes hochwertiges Bild zu generieren
- Unterstützt die Einstellung von mehreren Bildauflösungen und Generierungsparametern
3. erweiterte Funktionen
3.1 Selbstkorrekturmechanismen auf Bitebene:
- Automatische Erkennung und Korrektur von Fehlern im Erzeugungsprozess
- Verbesserung der Qualität und Genauigkeit der erzeugten Bilder
3.2 Erweiterungen des Modells:
- Unterstützt flexible Skalierung der Modellgrößen
- Es sind mehrere Modelle mit Parametern von 125M bis 20B erhältlich.
- Anpassung an unterschiedliche Hardware-Umgebungen und Anwendungsanforderungen
4. vorsichtsmaßnahmen
- Sicherstellen, dass die Hardware-Ressourcen den Modellanforderungen entsprechen
- Groß angelegte Modelle erfordern ausreichend GPU-Speicher
- Empfohlene High Performance Computing-Ausrüstung für die Ausbildung
- Regelmäßige Kontrollen der Back-up-Ausbildung
- Beachten Sie die Einhaltung des MIT-Open-Source-Protokolls