通义百聆系列近日推出全新开源语音交互模型Fun-Audio-Chat-8B,标志着其在语音对话领域迈入新阶段。该模型在智能理解与情感表达方面表现突出,能够精准捕捉对话中的情绪变化,实现自然流畅、富有共情的语音交流体验,使用户在互动中感受到如与知心之人对话般的亲切感。
在多个权威语音评测基准包括OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU及SpeechFunctionCall中,Fun-Audio-Chat-8B均取得当前最佳性能,整体表现优于同规模其他开源模型。
目前,百聆系列已构建起完整的语音能力矩阵:涵盖支持语音转文字的Fun-ASR模型和实现高质量文本转语音的Fun-CosyVoice3。最新发布的Fun-Audio-Chat-8B进一步拓展功能边界,具备“能听会说”的端到端语音对语音交互能力,适用于语音聊天、情感陪伴、智能终端设备以及语音客服等多样化应用场景。
该模型可在无任何显式情绪标注或提示词输入的情况下,自主通过语义内容、语调起伏、语速节奏、停顿间隔和重音分布等细微语音特征,识别对方情绪状态,并据此输出具有温度的回应,如适时的安慰、鼓励或关切表达。
同时,用户可根据需求自定义角色设定,灵活调整语音的情绪倾向、表达风格、语速节奏、音高变化和音量大小,打造个性化的语音交互体验。模型在持续优化表达能力的同时,有效保留了原有的语言理解水平,这得益于两项关键技术路径的创新设计。
其一为Core-Cocktail两阶段训练策略:首先让模型快速掌握语音交互新技能,随后将新习得的能力与原有文本大模型的知识基础进行参数融合,并开展联合微调,从而避免因学习新任务而导致原有能力退化的问题,即防止灾难性遗忘。
其二则是强化与人类对话偏好的对齐机制。通过多阶段、多任务的后训练架构,模型在真实对话环境中能更准确地理解语音输入中的语义信息与情绪线索,生成更加自然、贴合人类期待的回应内容。
值得一提的是,Fun-Audio-Chat-8B采用压缩-自回归-解压缩的双分辨率端到端框架,将音频处理帧率降至行业最低的5Hz,在显著降低计算负载的同时保持优异语音还原质量,GPU计算资源消耗减少近一半。
目前,该模型已向公众开放,用户可通过主流开源平台获取并本地部署体验。

评论
更多评论