太难了大型语言模型给出错误答案比例比老款更高

牛奶秋刀鱼

原创

09-29

随着大型语言模型（LLM）的不断发展，它们在回答问题时似乎更倾向于编造事实，而不是避免或拒绝回答无法回答的问题。这意味着这些更智能的AI聊天机器人实际上变得不可靠。

研究发现，虽然这些LLM的答复在许多情况下变得更加准确，但整体上可靠性更低，给出错误答案的比例比旧模型更高。研究人员进行了多项测试，包括询问各种主题并要求执行按指定顺序列出信息等任务。

总体而言，更大、更强大的模型给出了最准确的答案，在较复杂的问题上表现不佳，其准确率较低。研究人员指出，“没有一个能够达到60% 的准确率，即使是最简单的问题。”

当被要求判断聊天机器人的回答是否准确时，一小部分参与者有10％到40％的概率判断错误。这表明即使是有经验的用户也难以确定这些聊天机器人生成内容的真实性。

研究人员称解决这些问题最简单的方法是让LLM不那么急于回答一切。“可以设置一个阈值，当问题具有挑战性时，让聊天机器人说‘不，我不知道’。”但是如果将聊天机器人限制为只回答它们知道的东西，可能会暴露技术的局限性。

这项研究揭示了随着LLM的发展，其可靠性和准确性之间的平衡问题。它提示我们在使用这些AI聊天机器人时需要更加谨慎，并认识到它们可能存在缺陷和误导性。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



iQOO 13(12GB/256GB)

iQOO 13(12GB/256GB)

7人评分

66%好评

vivo X100 Ultra(12GB/256GB)

vivo X100 Ultra(12GB/256GB)

5433人评分

80%好评

HUAWEI nova 13(256GB)

HUAWEI nova 13(256GB)

3人评分

74%好评

OPPO Find X8 Pro(12GB/256GB)

OPPO Find X8 Pro(12GB/256GB)

16人评分

89%好评

苹果iPhone 16（128GB）

苹果iPhone 16（128GB）

830人评分

77%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具