中关村在线

热点资讯

谷歌DeepMind+斯坦福大学大胜人工智能评估!判定准确率76%

近日,谷歌DeepMind与斯坦福大学合作研发了一种基于大语言模型的工具——搜索增强事实评估器(SAFE),该工具能够对聊天机器人生成的回答进行事实核查。研究结果显示,SAFE在对100个有争议的事实进行重点分析时,判定正确率达到了76%,比人工注释的成本节省了20多倍。

为了评估 SAFE 的性能,研究人员创建了一个包含约16000个事实的数据集LongFact,并测试了该系统在来自 Claude、Gemini、GPT、PaLM-2等13个大语言模型上的表现。结果显示,在进一步审查后,SAFE的判定正确率达到76%。此外,SAFE还具备经济性优势:成本比人工注释便宜20多倍。

这是一项技术性的挑战,然而谷歌DeepMind和斯坦福大学似乎已经找到了一种解决方案。他们的工具能够对聊天机器人回答的真实性进行验证,并且具有较高的准确性和可读性。这项研究对于我们了解大语言模型如何生成信息以及如何确保其准确性非常重要。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具