近日,谷歌DeepMind与斯坦福大学合作研发了一种基于大语言模型的工具——搜索增强事实评估器(SAFE),该工具能够对聊天机器人生成的回答进行事实核查。研究结果显示,SAFE在对100个有争议的事实进行重点分析时,判定正确率达到了76%,比人工注释的成本节省了20多倍。
为了评估 SAFE 的性能,研究人员创建了一个包含约16000个事实的数据集LongFact,并测试了该系统在来自 Claude、Gemini、GPT、PaLM-2等13个大语言模型上的表现。结果显示,在进一步审查后,SAFE的判定正确率达到76%。此外,SAFE还具备经济性优势:成本比人工注释便宜20多倍。
这是一项技术性的挑战,然而谷歌DeepMind和斯坦福大学似乎已经找到了一种解决方案。他们的工具能够对聊天机器人回答的真实性进行验证,并且具有较高的准确性和可读性。这项研究对于我们了解大语言模型如何生成信息以及如何确保其准确性非常重要。

评论
更多评论