2026年4月20日,阿里通义实验室正式发布语音识别大模型Fun-ASR1.5。该模型采用混合专家架构,单一体系即可支持30种语言、汉语七大方言体系及二十余种地方口音,目前已在阿里云百炼平台开放使用。
在多语种交互场景中,模型无需预先指定语种标签,即可实现语种的自动识别与无缝切换。针对中文语音识别,模型依托数十万小时真实方言语音数据进行训练,整体字错误率较前代版本下降56.2%;在古诗词文本识别任务中,字符级准确率提升至97%。
此外,Fun-ASR1.5具备上下文感知能力,可自动添加标点符号,并完成口语向规范书面语的智能转换,涵盖数字、日期、金额、电话号码等常见格式化信息。这一能力显著提升了会议记录、访谈整理等场景下的文本生成质量,有效减少人工校对工作量。

评论
更多评论