This is a cache of https://weibo.com/1948301550/Q3KsTiQp0?from=page_1005051948301550_profile&wvr=6&mod=weibotime. It is a snapshot of the page as it appeared on 2025-09-16T09:28:38.795+0200.
当前性能最好的开源文转语音模型,支持语音... 来自Simon的白日梦 - 微博
25-09-9 12:03 发布于 广西 来自 微博网页版
当前性能最好的开源文转语音模型,支持语音克隆。

GitHub - bytedance/MegaTTS3

🧐 一句话总结:ByteDance 开源 MegaTTS3,这是一个基于扩散 Transformer 的轻量级双语 TTS 模型(仅 4.5 亿参数),支持零样本语音克隆、口音可控和中英混读,语音质量接近专业配音水准。
➡️链接:O网页链接
✨重点

● 🚀 轻量高效:核心 TTS Diffusion Transformer 只有 0.45B 参数,兼顾速度与音质。

● 🎧 超高质量语音克隆:支持上传 24 秒以内的语音样本生成 latent 表征(.npy),实现本地语音克隆。

● 🌍 中英双语:支持中文、英文以及中英夹杂的 code-switching。

● 🗣 可控合成:可调节口音强度,未来支持更细粒度的发音与时长控制。

● 🔧 安装方式多样:linux/Windows/Docker 均支持,提供命令行推理与 Gradio Web UI。

● 🧩 子模块丰富:
Aligner:用于语音-文本对齐和噪音数据过滤。
Graphme-to-Phoneme 模型:基于 Qwen2.5-0.5B 训练,用于鲁棒的字母转音素。
WaveVAE:强大的声码器,将 24kHz 音频压缩成 25Hz 潜变量,几乎无损重建。

● 📊 研究定位:主要面向学术用途,提供安全语音上传队列,未来将放出常见 TTS benchmark 的 latent 表征。

● 🔒 安全与许可:出于安全考虑未公开 WaveVAE 编码器参数,只能用官方生成的 latent 文件;项目基于 Apache-2.0 协议。

● 📑 学术背景:对应论文《Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis》,结合 Wavtokenizer 技术优化语音离散化表示。
看起来 MegaTTS3 的重点在于 高音质零样本克隆 + 可控语音合成,而且参数规模比很多大模型小得多,更适合研究和落地应用。

AI白日梦想家超话 #ai创造营# #你好人工智能时代# #ai生活指南#¡查看图片
欢迎新用户
o p

正在加载,请稍候...

 

科技博主

  • Ü 简介: 🚀更新 AI 工具和作品 | 🧐AI/艺术/设计/建筑/生态跨领域研究者 | 🔖中国美院及伦敦大学客座教师 | 📚UIBK...
更多 a