近日,微软官方发布了 Windows Agent Arena 基准框架,旨在评估生成式 AI(人工智能)在 Windows PC 上的性能表现。该框架采用主流 Windows 应用如 Microsoft Edge 和谷歌 Chrome 浏览器、Visual Studio Code 等编程应用、记事本、时钟和画图等预装应用以及 VLC 等多媒体播放器来测试代理的能力和速度。
微软表示,他们构建了涵盖多样化任务的 150 多项测试项目,并具有可扩展性,在 Azure 上可以无缝并行化执行基准测试,以在最短时间内完成全面评估。此外,微软研究院也使用自己的多模态 AI 助手 Navi 进行了试验。
在特定文本提示下进行任务执行测试时,Navi 的平均任务成功率仅为 19.5%,而人类的评分则达到了 74.5%。这一结果显示,目前AI在Windows PC上的表现仍存在一定差距。
评论