近日,阿里通义实验室开发的AI模型EMO正式推出通义APP,并对所有用户免费开放。该模型能将音频和照片输入AI模型,实现人物开口唱歌或说话的功能。例如,可以让奥黛丽赫本唱《上春山》、陶俑仕女说英文RAP、爱因斯坦说中文段子等。
EMO背后的肖像说话技术是当前大热的AIGC领域中的弱控制设计。该技术无需建模就能驱动肖像开口说话,不仅降低了视频生成成本,还提高了视频生成质量。EMO学习并编码了人类表达情绪的能力,能将音频内容和人物的表情、嘴型匹配,并在人物微表情上反映出音频的语气特征和情绪色彩。
今年2月底,通义实验室公布了相关论文后,EMO成为最受关注的AI模型之一。现在,通义APP使所有人都能免费体验这一前沿模型的创造力。未来,EMO技术有望应用于数字人、数字教育、影视制作、虚拟陪伴、电商直播等领域。
近期,通义APP还陆续推出了超长文档解析、AI编码助手、AI会议助手等实用功能。通义大模型正在成为越来越多用户的超级AI助手。
评论