微软新技术：语音到图像, AI技术再突破

十三号胡同

原创

10-15

根据最新公示的专利清单，微软公司获得了一项新专利。该专利描述了一种基于用户实时输入语音生成图片的技术。据报道，这个系统可以在会议或讲座中实时捕捉音频，并通过语言模型进行总结，然后生成相应的AI图像。

这项工作被分为三个步骤：捕捉音频、处理文本和生成图像。用户可以通过麦克风发言，系统会实时记录并转化为文本。接下来，每段内容将通过语言模型进行总结。最后，根据总结生成的提示，系统将创建AI图像，并在屏幕上实时显示。

微软公司表示，这种图像的使用有助于澄清概念，并特别适合需要通过视觉辅助学习的用户。该功能预计主要应用于Microsoft Teams。随着演讲者话题的变化，实时生成的图像也会随之更新，从而增强视觉沟通的效果。

这项技术可能会对教育、医疗和其他行业产生影响。它提供了一种更直观和生动的方式来传达信息，并帮助人们更好地理解复杂的内容。尽管该技术还需要进一步完善和发展，但它无疑具有巨大的潜力。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 70(12GB/512GB)

HUAWEI Mate 70(12GB/512GB)

509人评分

79%好评

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

HUAWEI Mate 70 RS 非凡大师(16GB/512GB)

141人评分

80%好评

vivo S20(8GB/256GB)

vivo S20(8GB/256GB)

926人评分

100%好评

ROG 游戏手机9 Pro(16GB/512GB)

ROG 游戏手机9 Pro(16GB/512GB)

316人评分

78%好评

Redmi K80(12GB/256GB)

Redmi K80(12GB/256GB)

5107人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具