当前性能最好的开源文转语音模型，支持语音... 来自Simon的白日梦

//img.t.sinajs.cn/t6/skin/skin048/skin.css?version=0b11f3f1

+关注

Simon的白日梦

25-09-9 12:03 发布于广西来自微博网页版

当前性能最好的开源文转语音模型，支持语音克隆。

GitHub - bytedance/MegaTTS3

🧐 一句话总结：ByteDance 开源 MegaTTS3，这是一个基于扩散 Transformer 的轻量级双语 TTS 模型（仅 4.5 亿参数），支持零样本语音克隆、口音可控和中英混读，语音质量接近专业配音水准。
➡️链接：O网页链接
✨重点

● 🚀 轻量高效：核心 TTS Diffusion Transformer 只有 0.45B 参数，兼顾速度与音质。

● 🎧 超高质量语音克隆：支持上传 24 秒以内的语音样本生成 latent 表征（.npy），实现本地语音克隆。

● 🌍 中英双语：支持中文、英文以及中英夹杂的 code-switching。

● 🗣 可控合成：可调节口音强度，未来支持更细粒度的发音与时长控制。

● 🔧 安装方式多样：linux/Windows/Docker 均支持，提供命令行推理与 Gradio Web UI。

● 🧩 子模块丰富：
Aligner：用于语音-文本对齐和噪音数据过滤。
Graphme-to-Phoneme 模型：基于 Qwen2.5-0.5B 训练，用于鲁棒的字母转音素。
WaveVAE：强大的声码器，将 24kHz 音频压缩成 25Hz 潜变量，几乎无损重建。

● 📊 研究定位：主要面向学术用途，提供安全语音上传队列，未来将放出常见 TTS benchmark 的 latent 表征。

● 🔒 安全与许可：出于安全考虑未公开 WaveVAE 编码器参数，只能用官方生成的 latent 文件；项目基于 Apache-2.0 协议。

● 📑 学术背景：对应论文《Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis》，结合 Wavtokenizer 技术优化语音离散化表示。
看起来 MegaTTS3 的重点在于高音质零样本克隆 + 可控语音合成，而且参数规模比很多大模型小得多，更适合研究和落地应用。

AI白日梦想家超话 #ai创造营# #你好人工智能时代# #ai生活指南#¡查看图片