2026年6月23日,网易有道正式推出全新一代语音合成引擎“子曰4.0”,代号Confucius4-TTS。这是全球首个支持14种语言跨语种无口音语音克隆、且完全无需参考文本即可完成高质量音色复现的开源模型。
该模型在跨语种语音克隆、免文本建模、情感与韵律迁移、本地化部署等核心技术环节均达到国际领先水准,为多语种内容创作、数字人语音驱动、跨语言教育应用、短剧海外发行以及全球化信息传播提供了高效、自主、易用的技术支撑。
当前,Confucius4-TTS已实现对中文、英语、西班牙语、法语、德语、韩语、泰语、越南语等14种语言的自然、流畅、高保真语音生成能力。
仅需3秒原始音频片段,用户即可完成音色克隆,无需提供文字脚本,也无需额外训练步骤。克隆音色与原声相似度超过85%,任务执行准确率达97%。当输入一段中文语音时,模型可直接以同一音色输出其他13种目标语言的语音,全程保持音色稳定统一;同时,它能自动识别并复现原始音频中的情感特征,精准传递语调起伏、节奏韵律及情绪表达。
技术架构方面,Confucius4-TTS以GPT风格的大规模语义模型为核心主干,融合可学习说话人编码器,并采用Flow Matching流匹配生成框架,彻底摒弃传统声码器路径,在语音自然度、表达可控性与生成稳定性上实现显著提升。
该模型已全面开源,遵循Apache许可证,向全球开发者开放全部模型权重、训练推理代码及配套工具链,商用完全自由。完整资源包体积为54GB,支持本地离线部署,兼顾数据隐私保护与个性化定制需求。

评论
更多评论