随着大型语言模型(LLM)的不断发展,它们在回答问题时似乎更倾向于编造事实,而不是避免或拒绝回答无法回答的问题。这意味着这些更智能的AI聊天机器人实际上变得不可靠。
研究发现,虽然这些LLM的答复在许多情况下变得更加准确,但整体上可靠性更低,给出错误答案的比例比旧模型更高。研究人员进行了多项测试,包括询问各种主题并要求执行按指定顺序列出信息等任务。
总体而言,更大、更强大的模型给出了最准确的答案,在较复杂的问题上表现不佳,其准确率较低。研究人员指出,“没有一个能够达到60% 的准确率,即使是最简单的问题。”
当被要求判断聊天机器人的回答是否准确时,一小部分参与者有10%到40%的概率判断错误。这表明即使是有经验的用户也难以确定这些聊天机器人生成内容的真实性。
研究人员称解决这些问题最简单的方法是让LLM不那么急于回答一切。“可以设置一个阈值,当问题具有挑战性时,让聊天机器人说‘不,我不知道’。”但是如果将聊天机器人限制为只回答它们知道的东西,可能会暴露技术的局限性。
这项研究揭示了随着LLM的发展,其可靠性和准确性之间的平衡问题。它提示我们在使用这些AI聊天机器人时需要更加谨慎,并认识到它们可能存在缺陷和误导性。
评论