苹果、英伟达等巨头被爆违规使用YouTube数据训练模型

肖医

原创

07-17

关注

包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。

这些公司使用了一个由第三方提供的数据集Pile，其中包含从YouTube上抓取的大量视频字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。

报道指出，这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles（YouTube字幕）”的数据集，大小为5.7GB，包含4.89亿个单词，来自Youtube上超过4.8万个频道中的17.35万个视频。

该数据集由视频字幕的纯文本组成，包括视频博主上传的部分和Youtube自动转录的文本，除了英语外，通常还附带日语、德语和阿拉伯语等语言的翻译。

Pile在各大科技公司中还是颇受追捧，例如苹果就使用Pile来训练其OpenELM AI模型，而两年前发布的Salesforce AI模型也是使用Pile进行训练的，目前下载量已超过86,000次。

知名科技博主Marques Brownlee在X（原推特）平台上表示：“苹果从几家公司获取了他们AI所需的数据，其中一家从YouTube视频中抓取了大量数据/转录文本，包括我的视频。从技术上来说苹果没有‘犯错’，他们没有主动抓取数据。但这将是一个长期存在的问题。”

在笔者看来，数据、算法、算力是支撑着人工智能的发展，三者缺一不可。大模型的训练需要海量的、有价值的数据喂养，如此之大的海量数据的来源也成为大模型企业的困扰，然而，这并不成为可以随意获取数据的接口。

可以说，此次事件让人们又一次关注到AI训练背后的数据问题。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



苹果iPhone 15（128GB）

苹果iPhone 15（128GB）

6093人评分

76%好评

苹果iPhone 15 Pro Max（256GB）

苹果iPhone 15 Pro Max（256GB）

5545人评分

75%好评

苹果iPhone 15 Pro（128GB）

苹果iPhone 15 Pro（128GB）

6226人评分

76%好评

苹果iPhone 14（128GB）

苹果iPhone 14（128GB）

5326人评分

76%好评

苹果iPhone 13（128GB/全网通/5G版）

苹果iPhone 13（128GB/全网通/5G版）

26504人评分

78%好评

评论

更多评论

读过此文的还读过

点击加载更多

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具