中关村在线

热点资讯

首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

据最新消息,科技公司OpenAI推出了一项名为MLE-bench的新基准评估工具,旨在评估人工智能智能体在开发机器学习解决方案方面的能力。这项基准包括了75个Kaggle竞赛任务,旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。

Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。

在Kaggle平台上,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和 "Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。

这次推出的MLE-bench基准主要关注两个关键领域:选择具有挑战性的任务以及比较AI与人类的表现。通过这样的对比,可以评估出AI在特定任务中所具备的能力。

据测试结果显示,在16.9%的比赛当中至少获得了一枚铜牌的AIDE框架的o1-preview模型表现最佳,在MLE-bench测试中获得了7枚金牌。而另一款名为 Claude 3.5 Sonnet 的 Anthropic 模型也取得不错成绩,达到了特级大师级别(需获得5枚金才能被评上)。OpenAI也承认了MLE-bench的局限性,并未涵盖所有方面的AI研究与开发,主要集中在具有明确问题和简单评估指标的任务上。

为推动这一领域进一步发展,OpenAI已经将MLE-bench基准发布了到GitHub上。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具