中关村在线

热点资讯

6.3万亿!英伟达上线大型英文AI训练数据库

根据最新的报道,英伟达公司推出了一款名为Nemotron-CC的大型英文AI训练数据库。该数据库包含6.3万亿个Token,其中1.9万亿为合成数据。据英伟达声称,这个训练数据库可以帮助学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类AI模型的具体性能主要取决于相应模型的训练数据。然而,现有公开数据库在规模和质量上往往存在局限性。因此,英伟达称Nemotron-CC的出现是解决这一瓶颈的关键。这个6.3万亿Token规模内含大量经过验证的高质量数据,被誉为“训练大型语言模型的理想素材”。

值得注意的是,在开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术来最大限度地保证数据的质量和多样性。同时,他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量Token的数量,并避免对模型精确度造成损害。

据悉,英伟达已将Nemotron-CC训练数据库已在Common Crawl网站上公开,并表示相关文档文件将在稍晚时候于公司的GitHub页中公布。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具