8月27日,谷歌DeepMind团队在arxiv上发表了一篇论文,介绍并展示了他们的创新之作——生成式验证器(GenRM)。该验证器创造性地引入了奖励模型,从而提升了生成式人工智能(AI)的推理能力。
目前,在大语言模型(LLMs)领域内,提高其性能的主流方法是“最佳-N”模式。即通过LLM生成N个候选解决方案,并由验证器进行排序以选择最佳方案。然而,这些基于LLM的验证器通常被训练成判别分类器来给解决方案打分,而无法利用预训练LLM文本生成能力。
为了解决这个问题,DeepMind团队尝试使用“下一个token”预测目标来训练验证器,并同时进行验证和解决方案生成。与传统验证器相比,GenRM具有以下优点:
1. 无缝集成指令调整
2. 支持思维链推理
3. 利用额外的推理时间计算
在算法和小学数学推理任务中使用基于Gemema的验证器时,GenRM的性能优于判别式验证器和 LL
评论