7. August.MiniMax
Das Unternehmen stellte sein Modell der nächsten Generation der Sprachgeneration vor Speech 2.5
.. Offiziellen Quellen zufolge war das Modell in seinem Vorgänger Speech 02
Im Vergleich zur Vorgängerversion wurden die mehrsprachige Ausdruckskraft, die Genauigkeit der Tonwiedergabe und die Anzahl der unterstützten Sprachen verbessert.
Im Bereich der durch künstliche Intelligenz generierten Inhalte (Artificial Intelligence Generated Content, AIGC) ist die Text-to-Speech-Technologie (TTS) eine Schlüsselkomponente für eine natürlichere Interaktion zwischen Mensch und Computer. Bei der Bewertung der Vorzüge eines Sprachmodells werden in der Regel mehrere Dimensionen berücksichtigt, darunter die Genauigkeit der Aussprache (z. B. eine niedrige Wortfehlerrate), die Ähnlichkeit zwischen der generierten Sprache und der Zielklangfarbe sowie die natürliche Rhythmik der Sprache (z. B. ob die Pausen und Akzente den menschlichen Gewohnheiten entsprechen).MiniMax
dieser Aktualisierung konzentriert sich auf diese Kernmetriken.
Kern-Upgrades: Mehrsprachigkeit, Klangfarbe und Reichweite
Boden MiniMax
offizielle Freigabe von Informationen.Speech 2.5
Die wichtigsten Durchbrüche sind in den folgenden drei Bereichen zu verzeichnen:
- Verbesserte MehrsprachigkeitDas Modell wurde weiter für Mandarin-Chinesisch optimiert und gleichzeitig seine Leistung in den gängigen Sprachen wie Englisch verbessert. Offiziell übertrifft das neue Modell sein Vorgängermodell in Bezug auf Ähnlichkeit und natürlichen Rhythmus und zielt darauf ab, das Problem des "mechanischen Sinns" zu lösen, das in mehrsprachigen Szenarien üblich ist.
- Verbesserte Genauigkeit der TonwiedergabeTonwiedergabe, die Fähigkeit, die Stimme eines bestimmten Charakters zu klonen, ist die aktuelle
TTS
Einer der Schwerpunkte des Wettbewerbs in diesem Bereich.Speech 2.5
Die Fähigkeit, stimmliche Details zu erfassen, wurde verbessert, insbesondere in komplexen Szenarien wie der sprachübergreifenden Reproduktion und der Beibehaltung spezifischer Akzente (z. B. regionaler Akzente unter derselben Sprache), um eine höhere Wiedergabetreue zu erreichen. So kann das Modell beispielsweise einen bestimmten Sprachakzent nachahmen und die stimmlichen Eigenschaften des ursprünglichen Sprechers beim Sprachwechsel beibehalten. - Erweiterter SprachumfangDas neue Modell unterstützt nun auch Nischensprachen wie Bulgarisch, Dänisch und Hebräisch, wodurch sich die Gesamtzahl der Sprachen auf 40 erhöht. Diese Erweiterung hat praktische Auswirkungen für Unternehmen, die ihre Inhalte globalisieren müssen.
Marktanwendungen und Auswirkungen auf die Industrie
Hochwertige, mehrsprachige Sprachsynthesetechnologie, deren Anwendungsszenarien sich von den traditionellen Hörbüchern, der Navigationsstimme, auf ein breiteres Feld ausweiten.
Für geschäftliche Nutzer, insbesondere für Unternehmen, die in Übersee tätig sind, ist dieSpeech 2.5
Ein solches Modell kann die Kosten für die Produktion mehrsprachiger Inhalte erheblich senken. Werbespots, Produktvideos und Sprachaufnahmen für den Kundendienst, für die früher Muttersprachler aus verschiedenen Ländern angeheuert werden mussten, können mit diesem Modell schnell erstellt werden, was die Produktionszyklen und -kosten erheblich reduziert.
Für die Ersteller von Inhalten bedeutet die personalisierte Tonwiedergabe, dass sie mehrsprachige Inhalte in ihrer eigenen Stimme veröffentlichen können, wodurch Sprachbarrieren überwunden werden und ein größeres globales Publikum erreicht wird. Dies birgt ein großes Potenzial für Anwendungen in Bereichen wie Kurzvideos, Podcasts und Live-Avatare.
Im Bildungsbereich kann die Technologie auch eingesetzt werden, um schnell Lehrmaterial in Nischensprachen zu erstellen oder maßgeschneiderte Lehrmaterialien mit bestimmten regionalen Dialekten zu erstellen, was eine stärker lokalisierte Wissensverbreitung ermöglicht.
Wettbewerbslandschaft auf dem Markt
Die Sprachsynthese ist kein neues Geschäftsfeld und der Markt ist hart umkämpft.MiniMax Speech
Zu den wichtigsten Wettbewerbern gehören ElevenLabs
Letzterer ist bekannt für seinen kraftvollen Stimmklang und seinen emotionalen Ausdruck. Inzwischen.OpenAI
(in Form eines Nominalausdrucks) Voice Engine
im Gesang antworten Microsoft
(in Form eines Nominalausdrucks) VALL-E
Modelle wie diese zeigen auch starke technische Fähigkeiten, obwohl einige von ihnen noch nicht in großem Umfang für die Öffentlichkeit verfügbar sind.
MiniMax
In der Pressemitteilung wurde erwähnt, dass seine Speech
Das Modell wurde Vapi
undPipecat
Isometrik Agent
Plattformen sowie die Einführung im Inland durch Unternehmen wie Highway Education und Himalaya. Durch die kontinuierliche Weiterentwicklung des Modells und die Ausweitung der Sprachunterstützung kann dasMiniMax
Es besteht der klare Wunsch, auf dem hart umkämpften globalen Markt mit einem guten Preis-Leistungs-Verhältnis und einer umfassenden Unterstützung für bestimmte Märkte zu konkurrieren.
Derzeit.Speech 2.5
genehmigt MiniMax
Open Platform und ihre offizielle Website für die Nutzer.