据最新消息,科技公司OpenAI推出了一项名为MLE-bench的新基准评估工具,旨在评估人工智能智能体在开发机器学习解决方案方面的能力。这项基准包括了75个Kaggle竞赛任务,旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。
在Kaggle平台上,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和 "Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。
这次推出的MLE-bench基准主要关注两个关键领域:选择具有挑战性的任务以及比较AI与人类的表现。通过这样的对比,可以评估出AI在特定任务中所具备的能力。
据测试结果显示,在16.9%的比赛当中至少获得了一枚铜牌的AIDE框架的o1-preview模型表现最佳,在MLE-bench测试中获得了7枚金牌。而另一款名为 Claude 3.5 Sonnet 的 Anthropic 模型也取得不错成绩,达到了特级大师级别(需获得5枚金才能被评上)。OpenAI也承认了MLE-bench的局限性,并未涵盖所有方面的AI研究与开发,主要集中在具有明确问题和简单评估指标的任务上。
为推动这一领域进一步发展,OpenAI已经将MLE-bench基准发布了到GitHub上。

评论
更多评论