国内人工智能公司月之暗面最新推出的Kimi国产大模型在数学能力测试中展现出色表现,其首款推理能力强化模型k0-math成功对标OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。初代模型在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中成绩超过这两个模型,取得第一。在业界最常使用的数学能力基准测试MATH中,k0-math模型得分93.8,超过o1-mini的90分和o1-preview的85.5分。
Kimi不同寻常的是,它的常规模型会花更长时间来推理和规划思路,并在必要时自行反思改进解题思路以提升答题成功率。然而,该模型当前还无法解答LaTeX格式难以描述的几何图形类问题,并且对于过于简单的数学问题可能会过度思考。
尽管如此,月之暗面表示这些局限性既是机遇也是挑战,并预计将在下一阶段的模型迭代中得到改善。
评论