海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

MLX-Audio支持文本转语音和语音转语音双模式处理

2025-08-30

1.4 K

多功能语音生成系统

该工具的核心功能包含两个维度：传统TTS系统采用VITS/VALL-E等端到端模型，支持中英文混合输入，通过动态分词技术实现98.5%的发音准确率。其STS功能则基于SoVITS方案，仅需3秒参考音频即可克隆音色，转换过程采用频域特征分解技术保持原始语调韵律。测试数据显示，生成语音的MOS评分达到4.2分(5分制)，优于多数开源方案。

系统预置4种基础声线模型(包含男女声各两种)，支持通过参数调节语速(50-200%)和音调(±20%)。高级用户可加载自定义模型，项目文档提供了将PyTorch模型转为MLX格式的完整教程。语音转换功能特别适用于配音制作场景，能保持原始语音的情感特征同时替换说话人音色。

この答えは記事から得たものである。MLX-Audio：アップルのMLXフレームワークをベースにした音声合成ツールについて

関連記事

無断転載を禁じます：AI生産性ツール " MLX-Audio支持文本转语音和语音转语音双模式处理

おすすめ

日本語