Das Echtzeit-Interaktionssystem der Yuanzhen Digital Human Platform löst die Hauptprobleme bei Anwendungen für virtuelle digitale Menschen. Die sprachgesteuerte Technologie verwendet eine durchgängige neuronale Netzwerkarchitektur, die Sprachsignale in Echtzeit in die Mundform, den Ausdruck und die Körperbewegungen einer digitalen Person umwandeln kann, wobei die Latenzzeit innerhalb von 200 Millisekunden gesteuert wird.
Zu den wichtigsten technologischen Errungenschaften gehören:
- Hochpräziser Algorithmus zur Extraktion von Sprachmerkmalen, unterstützt die Erkennung von Mandarin und mehreren Dialekten.
- Modalübergreifende generative Modelle für die genaue Abbildung von Sprache auf visuelle Repräsentationen
- Adaptive Rendering-Engine zur Gewährleistung einer konsistenten Leistung auf verschiedenen Endgeräten
Für die plattformübergreifende Live-Übertragung verwendet das System eine verteilte Push-Flow-Architektur, die die Verteilung von Live-Inhalten auf Mainstream-Plattformen wie Joyo, Taobao und Shutterbugs synchronisieren und die Konsistenz der Echtzeit-Interaktionen zwischen den Plattformen aufrechterhalten kann. Diese Kombination von Technologien ermöglicht es digitalen menschlichen Live-Sendungen, ein Gefühl der Präsenz und Interaktivität zu vermitteln, das mit dem von echten Moderatoren vergleichbar ist, und gleichzeitig einen Skaleneffekt zu erzielen, den traditionelle Live-Sendungen nicht erreichen können.
Diese Antwort stammt aus dem ArtikelYuanzhen Digital Human: Digital Human Live Streaming, Mouthful Short Video, kommerzialisiertes AI Virtual Human Live Streaming ToolDie




























