谷歌DeepMind+斯坦福大学大胜人工智能评估！判定准确率76%

一便士的月亮

原创

2024-03-31

近日，谷歌DeepMind与斯坦福大学合作研发了一种基于大语言模型的工具——搜索增强事实评估器（SAFE），该工具能够对聊天机器人生成的回答进行事实核查。研究结果显示，SAFE在对100个有争议的事实进行重点分析时，判定正确率达到了76%，比人工注释的成本节省了20多倍。

为了评估 SAFE 的性能，研究人员创建了一个包含约16000个事实的数据集LongFact，并测试了该系统在来自 Claude、Gemini、GPT、PaLM-2等13个大语言模型上的表现。结果显示，在进一步审查后，SAFE的判定正确率达到76%。此外，SAFE还具备经济性优势：成本比人工注释便宜20多倍。

这是一项技术性的挑战，然而谷歌DeepMind和斯坦福大学似乎已经找到了一种解决方案。他们的工具能够对聊天机器人回答的真实性进行验证，并且具有较高的准确性和可读性。这项研究对于我们了解大语言模型如何生成信息以及如何确保其准确性非常重要。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



OPPO Find X8 Ultra(12GB/256GB)

OPPO Find X8 Ultra(12GB/256GB)

898人评分

78%好评

荣耀X70(8GB/128GB)

荣耀X70(8GB/128GB)

14人评分

78%好评

HUAWEI Mate 70(12GB/512GB)

HUAWEI Mate 70(12GB/512GB)

2072人评分

79%好评

小米15(12GB/256GB)

小米15(12GB/256GB)

7042人评分

79%好评

苹果iPhone 15（128GB）

苹果iPhone 15（128GB）

9880人评分

76%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具