根据最新的报道,英伟达公司推出了一款名为Nemotron-CC的大型英文AI训练数据库。该数据库包含6.3万亿个Token,其中1.9万亿为合成数据。据英伟达声称,这个训练数据库可以帮助学术界和企业界进一步推动大语言模型的训练过程。
目前,业界各类AI模型的具体性能主要取决于相应模型的训练数据。然而,现有公开数据库在规模和质量上往往存在局限性。因此,英伟达称Nemotron-CC的出现是解决这一瓶颈的关键。这个6.3万亿Token规模内含大量经过验证的高质量数据,被誉为“训练大型语言模型的理想素材”。
值得注意的是,在开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术来最大限度地保证数据的质量和多样性。同时,他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量Token的数量,并避免对模型精确度造成损害。
据悉,英伟达已将Nemotron-CC训练数据库已在Common Crawl网站上公开,并表示相关文档文件将在稍晚时候于公司的GitHub页中公布。
评论