6.3万亿！英伟达上线大型英文AI训练数据库

林有三

原创

17小时前

根据最新的报道，英伟达公司推出了一款名为Nemotron-CC的大型英文AI训练数据库。该数据库包含6.3万亿个Token，其中1.9万亿为合成数据。据英伟达声称，这个训练数据库可以帮助学术界和企业界进一步推动大语言模型的训练过程。

目前，业界各类AI模型的具体性能主要取决于相应模型的训练数据。然而，现有公开数据库在规模和质量上往往存在局限性。因此，英伟达称Nemotron-CC的出现是解决这一瓶颈的关键。这个6.3万亿Token规模内含大量经过验证的高质量数据，被誉为“训练大型语言模型的理想素材”。

值得注意的是，在开发过程中使用了模型分类器、合成数据重述（Rephrasing）等技术来最大限度地保证数据的质量和多样性。同时，他们还针对特定高质量数据降低了传统的启发式过滤器处理权重，从而进一步提高了数据库高质量Token的数量，并避免对模型精确度造成损害。

据悉，英伟达已将Nemotron-CC训练数据库已在Common Crawl网站上公开，并表示相关文档文件将在稍晚时候于公司的GitHub页中公布。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 70(12GB/512GB)

HUAWEI Mate 70(12GB/512GB)

509人评分

79%好评

vivo X200 Pro(12GB/256GB)

vivo X200 Pro(12GB/256GB)

9208人评分

100%好评

Redmi K80(12GB/256GB)

Redmi K80(12GB/256GB)

5107人评分

80%好评

苹果iPhone 16 Pro（128GB）

苹果iPhone 16 Pro（128GB）

2957人评分

77%好评

荣耀GT(12GB/256GB)

荣耀GT(12GB/256GB)

2人评分

56%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具