Diaとは？主な機能は？

2025-08-24

1.5 K

ダイヤの紹介と機能概要

Diaは、Nari Labsによって開発されたオープンソースの音声合成(TTS)モデルである。主な機能は以下の通り：

シュールな対話の生成S1]、[S2]などのタグを指定することで、異なる話者を区別し、対話全体を一度の処理で出力する。
音声制御技術オーディオキューや固定シードによるイントネーション感情の変調をサポートし、笑いや間などの非言語的表現も生成。
オープンソースアーキテクチャ16億のパラメトリックモデルに基づき、コードと事前訓練されたモデルはHugging FaceとGitHubプラットフォームでホストされています。

このプロジェクトは、SoundStormのような最先端の研究にインスパイアされたコア・テクノロジーを用いて、開発者のニーズを満たすAPIを提供する一方で、Gradioのビジュアル・インターフェースを使用して、利用の敷居を低くしている。