OmniSVG ist ein Open-Source-Projekt, das auf einem multimodalen Modell basiert, das sich auf die Generierung hochwertiger, editierbarer Vektorgrafiken (SVG-Format) konzentriert. Das Kernstück des Projekts, das gemeinsam von der Fudan-Universität und dem StepFun-Team entwickelt wurde, ist die Verwendung von vortrainierten visuell-linguistischen Modellen, um die beiden Hauptmodalitäten der Generierung zu implementieren:
- Texterzeugung SVGDirekte Ausgabe von Vektorgrafiken über natürlichsprachliche Beschreibungen (z.B. "rotes Pentagramm")
- Bild zu SVGRasterbilder (z. B. PNG/JPG) in skalierbare Vektorpfade umwandeln
Zu den Hauptmerkmalen der aktuellen Version gehören außerdem:
- Erzeugung von RollenkonsistenzAnime-Charaktere auf der Grundlage von Referenzzeichnungen einheitlich gestalten
- Unterstützung komplexer GrafikenSehr detaillierte Illustrationen und Charakterdesigns können exportiert werden.
- Datensätze und BewertungsprotokolleBereitstellung des MMSVG-Datensatzes (mit einer Teilmenge von Icons/Illustrationen) und der MMSVG-Bench Qualitätsstandards
Das Projekt konzentriert sich in dieser Phase auf den Einsatz in der Forschung und wird in Zukunft den gesamten Modellcode als Open Source zur Verfügung stellen, um benutzerdefiniertes Training und Optimierung zu unterstützen.
Diese Antwort stammt aus dem ArtikelOmniSVG: aus Text und Bildern SVG-Vektorgrafiken erzeugen Open-Source-ProjektDie































