7月24日,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0,成为首个在延迟和翻译准确率方面接近人类水平的中英语音同传系统,具备实际产品化能力。
该模型基于全双工的端到端语音生成与理解框架,支持中文与英文之间的实时互译,能够同时处理多个人的语音输入。其工作方式类似于专业同传译员,可在持续接收源语言语音的同时,以极低延迟直接输出目标语言的语音翻译,实现“边听边说”的流畅体验。此外,系统还具备零样本声音复刻能力,可在无需预先训练的情况下,实时模拟说话人的音色特征,使翻译语音更加自然,提升交流的连贯性与亲和力。
在实际测试中,Seed LiveInterpret 2.0面对长达40秒的连续中文语句,能够以几乎无卡顿的方式输出语义准确、音色一致的英文翻译。同时,模型具备快速音色学习能力,进一步优化了语音输出的真实感。
相较于传统机器同传系统,该模型展现出多项显著优势:在翻译准确率方面,面对多人会议等复杂场景,中英双向翻译准确率超过70%,在单人演讲场景下更可达80%以上,已接近专业人类同传水平;在响应速度上,得益于全双工架构,翻译延迟可压缩至2至3秒,较传统系统降低超过60%,真正实现低延迟同步传译;在语音表现上,系统可基于实时语音信号提取声音特征,无需额外训练即可复刻说话人音色,使跨语言表达更具沉浸感;此外,模型还能智能调节翻译质量、响应延迟与语音输出节奏,根据语句清晰度、语速和复杂度动态优化输出,即使面对长段内容,也能保持自然流畅的语音表达。
目前,Seed LiveInterpret 2.0的技术细节已通过公开技术报告发布,模型依托火山引擎平台对外开放。同时,搭载该模型的首款智能硬件设备Ola Friend耳机预计将于8月底上线相关功能,成为首个集成该技术的消费级终端产品。

评论
更多评论