首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

拿铁不加冰

原创

2024-10-12

据最新消息，科技公司OpenAI推出了一项名为MLE-bench的新基准评估工具，旨在评估人工智能智能体在开发机器学习解决方案方面的能力。这项基准包括了75个Kaggle竞赛任务，旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

Kaggle是一个非常受欢迎的平台，专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛，包括数据预测、图像分类、自然语言处理等，适合不同技能水平的参与者。

在Kaggle平台上，“Novice”（新手）、“Contributor”（贡献者）、“Expert”（专家）、“Master”（大师）和 "Grandmaster"（特级大师）是不同的绩效层级，用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。

这次推出的MLE-bench基准主要关注两个关键领域：选择具有挑战性的任务以及比较AI与人类的表现。通过这样的对比，可以评估出AI在特定任务中所具备的能力。

据测试结果显示，在16.9%的比赛当中至少获得了一枚铜牌的AIDE框架的o1-preview模型表现最佳，在MLE-bench测试中获得了7枚金牌。而另一款名为 Claude 3.5 Sonnet 的 Anthropic 模型也取得不错成绩，达到了特级大师级别（需获得5枚金才能被评上）。OpenAI也承认了MLE-bench的局限性，并未涵盖所有方面的AI研究与开发，主要集中在具有明确问题和简单评估指标的任务上。

为推动这一领域进一步发展，OpenAI已经将MLE-bench基准发布了到GitHub上。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 80(12GB/256GB)

HUAWEI Mate 80(12GB/256GB)

209人评分

80%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

荣耀Magic V6(12GB/256GB)

荣耀Magic V6(12GB/256GB)

vivo X300 Pro（12GB+256GB）

vivo X300 Pro（12GB+256GB）

360人评分

100%好评

苹果iPhone 17 Pro Max（256GB）

苹果iPhone 17 Pro Max（256GB）

534人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具