当前性能最好的开源文转语音模型,支持语音克隆。
GitHub - bytedance/MegaTTS3
🧐 一句话总结:ByteDance 开源 MegaTTS3,这是一个基于扩散 Transformer 的轻量级双语 TTS 模型(仅 4.5 亿参数),支持零样本语音克隆、口音可控和中英混读,语音质量接近专业配音水准。
➡️链接:
O网页链接✨重点
● 🚀 轻量高效:核心 TTS Diffusion Transformer 只有 0.45B 参数,兼顾速度与音质。
● 🎧 超高质量语音克隆:支持上传 24 秒以内的语音样本生成 latent 表征(.npy),实现本地语音克隆。
● 🌍 中英双语:支持中文、英文以及中英夹杂的 code-switching。
● 🗣 可控合成:可调节口音强度,未来支持更细粒度的发音与时长控制。
● 🔧 安装方式多样:
linux/Windows/Docker 均支持,提供命令行推理与 Gradio Web UI。
● 🧩 子模块丰富:
Aligner:用于语音-文本对齐和噪音数据过滤。
Graphme-to-Phoneme 模型:基于 Qwen2.5-0.5B 训练,用于鲁棒的字母转音素。
WaveVAE:强大的声码器,将 24kHz 音频压缩成 25Hz 潜变量,几乎无损重建。
● 📊 研究定位:主要面向学术用途,提供安全语音上传队列,未来将放出常见 TTS benchmark 的 latent 表征。
● 🔒 安全与许可:出于安全考虑未公开 WaveVAE 编码器参数,只能用官方生成的 latent 文件;项目基于 Apache-2.0 协议。
● 📑 学术背景:对应论文《Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis》,结合 Wavtokenizer 技术优化语音离散化表示。
看起来 MegaTTS3 的重点在于 高音质零样本克隆 + 可控语音合成,而且参数规模比很多大模型小得多,更适合研究和落地应用。
AI白日梦想家超话 #ai创造营# #你好人工智能时代# #ai生活指南#¡查看图片