惊爆！英伟达那神秘的视频基础模型「Cosmos」竟然浮出水面，然而其数据居然是靠窃取得来！

🐱 个人主页：TechCodeAI启航，公众号：TechCodeAI

🙋‍♂️ 作者简介：2020参加工作，专注于前端各领域技术，共同学习共同进步，一起加油呀！

💫 优质专栏：AI相关最新技术分享（目前在向AI方向发展，欢迎大佬交流）

📢 资料领取：前端进阶资料可以找我免费领取

🔥 摸鱼学习交流：我们的宗旨是在「工作中摸鱼，摸鱼中进步」，期待大佬一起来摸鱼！

简直难以置信！为了这个视频模型，英伟达当下正陷入一种近乎疯狂的状态，每日都在拼命爬取足可相当于 80 年时长的视频数据。

惊人之讯！在今天，一则英伟达将要投身于视频模型的消息于 Reddit 上引发了巨大轰动。

令人震惊！消息源自外媒 404 Media，据其获取到的 Slack 聊天（属于英伟达的内部聊天平台）、电子邮件以及相关文件表明，英伟达正在从 Youtube 以及其他若干来源抓取视频，以此来收集用于其 AI 产品的训练数据。

惊爆眼球！404 Media 所查看的英伟达内部对话表明，当参与该项目的员工对使用"禁止商用的研究数据集"和"YouTube 视频"可能引发的法律问题提出疑问时，管理人员告知他们，已获得公司最高层的许可，能够运用这些内容。

一位不愿透露姓名的前英伟达员工宣称，员工被责令从 Netflix、YouTube 以及其他来源抓取视频，用于训练 Omniverse 3D 世界生成器、自动驾驶汽车系统和"数字人"产品的 AI 模型。

这个项目内部被命名为 Cosmos（但和公司现有的 Cosmos 深度学习产品存在差异），尚未向公众推出。从该项目领导层发给员工的电子邮件可以看出，Cosmos 的目标是构建一个处于前沿水平的视频基础模型，"将光传输、物理和智能模拟整合于一处，以开启对英伟达极为关键的各类下游应用。"

为了采集训练视频，英伟达员工运用了名为"yt-dlp"的开源 YouTube 视频下载器。他们尝试从 Netflix 等众多来源下载完整视频，然而重点主要放在了 YouTube 视频上。404 Media 所查看的电子邮件显示，项目经理选取了使用 Amazon Web Services 中的 20 到 30 台虚拟机，每天下载的视频时长相当于 80 年。

英伟达研究副总裁兼 Cosmos 项目负责人 Ming-Yu Liu 在 5 月份的一封电子邮件里说道："我们正在完成 v1 数据 pipeline 并确保必备的计算资源，以打造一个视频数据工厂，这个工厂每天能够产出相当于人类一生视觉体验的训练数据。"

当被问及英伟达把 YouTube 视频当作其模型的训练数据一事时，谷歌发言人向 404 Media 表示，该公司"此前的立场依旧有效"。此前 YouTube 首席执行官 Neal Mohan 称，如果 OpenAI 使用 YouTube 视频来优化其 AI 视频生成器 Sora，那将"明显违背"YouTube 的使用条款。

同样的，Netflix 发言人向 404 Media 透露，公司与英伟达未曾就内容采集达成协议，并且该平台的服务条款严禁抓取内容。

不过，英伟达方面貌似满不在乎。参与该项目的员工提出的法律问题常常被项目经理否定，并表示，未经许可抓取视频的决定属于"行政决定"，他们无需担忧，而关于什么是公平、合乎道德地使用受版权保护的内容以及学术、非商业用途数据集的问题被视作"悬而未决的法律问题"，日后再行解决。

英伟达视频模型项目始末

值得关注的是，与其他科技巨头相仿，英伟达招募学术研究人才发表学术成果，可从 404 Media 所获取的内部邮件不难发现，Cosmos 显然是要用于商业领域的。

今年三月，一位英伟达的研究员于 Slack 上发布帖子，提议借助《阿凡达》或《指环王》这样的好莱坞电影来训练 OpenAI Sora，也许效果会更优。

紧接着，他的提议得到了公司内部的认同，但他也进一步说明，好莱坞对 AI 可能侵犯版权的情况极其敏感。2023 年七月，拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工，将矛头径直对准 ChatGPT 和 Stable Diffusion 等生成式 AI 产品，在此之前，美国编剧工会已经罢工 70 多天。Stable Diffusion 存在此种情形，即使不输入对应的提示词，仅输入「动漫画风的水管工」这样模糊的表述，Stable Diffusion 会直接生成马里奥的经典形象。

在这个帖子下方，一位名叫「Liu」的员工（即英伟达研究副总裁 Ming-Yu Liu（刘洺堉）答复道：「如果不公开发表论文，就不会招致以上负面问题。我们应该先用能下载的视频进行试验。」

接下来，又有一位英伟达研究员在内部网络发表了一个帖子，他寻获了一份训练视频模型应当优先下载的文件清单，然而英伟达所运用的 HD-VILA-100M 数据集中竟然缺少约 230 万个原始视频。这个持续扩充的清单中还涵盖了一些知名 YouTuber 的原创视频，例如在北美知名度类似于"大家好我是何同学"的数码评测博主 Marques Brownlee（MKBHD）。

出于对版权的保护，通常的视频数据集往往收录 URL 链接或者 YouTube ID，一旦作者删除了原视频，这些内容将不会继续留存于数据集中，除非视频作者明确表示同意其内容被保留和使用。

虽然微软在其 HD-VILA-100M 数据集的使用声明中明确严禁用于一切商业用途，但是发帖的英伟达员工似乎毫不介意，他迅速贴出了这份清单对应的 YouTube 链接，并和同事们探讨出了用 AWS 虚拟机换 IP，规避 YouTube 反爬虫机制的解决办法。

除此之外，英伟达的员工还将目标瞄准了 Google 发布的大规模视频理解数据集 YouTube-8M。和自行补充微软的数据集不同，他们和 YouTube 以及 YouTube 现今的母公司谷歌达成了一笔"交易"，英伟达以每支视频 0.00625 美元（约等于人民币 4 分钱）的价格购入了 800 万支视频，并将通过谷歌云下载。不考虑出卖版权的问题，谷歌或许认为赚回了这些视频的广告费，但英伟达原本在云带宽方面就存在一些限制，在谷歌云上下载，反而能够获得更加稳定和可预测的连接。因此，无论从哪个层面来看，这笔"交易"似乎都对英伟达有益。

更令人震惊的是，当有英伟达员工在内部网络发问："我们这样下载 YouTube 视频合理吗？"

"这是一个高层决定。我们已经获得了使用所有数据的全面许可。"他得到了这样的答复。

这个决定所允许使用的数据还包含 Netflix 上的视频作品。Netflix 的数据包含大量高质量的人脸数据，在获得批准后，有人在公司内网 @了有在其他大公司"构建大型数据集"经验的同事帮忙。

同时，Cosmos 团队还思考了如何有效地将游戏画面添加到训练数据中的问题。英伟达高级研究科学家 Jim Fan 在捕获实时游戏画面时也遭遇了"监管"的阻碍。

Jim Fan 发了个帖子说：

更新：我一直在与 GeForce Now（GFN）的人员开会，和他们制定计划。我们将与 GFN 及相关工程团队紧密合作，开发捕获实时游戏数据的方法，扩大 pipeline 的规模，并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充...... 因为还没有用来捕获实时游戏视频和动作的设备，因此还没有进行统计，但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。

于今年三月份，Cosmo 项目在视频数据收集方面实现了一个突破性进展：Nvidia 在两周的时间里成功完成了 10 万次视频下载。

"进步神速。目前的难题是我们如何能够斩获大量优质的 URL。"Liu 在这个帖子中答复道。

5 月下旬，项目组成员收到了一封涉及视频数据策略的邮件，宣告他们已经汇集了 3850 万个视频 URL。邮件中说道："根据安排，下周收集视频的重点依然是电影、无人机镜头、第一人称视角的镜头、自然风光。"邮件中还包含着一张图表，呈现了他们下载的内容类型的占比情况。

这封邮件展露了一些关键的技术信息，包含了模型训练数据中的四个数据集：

Ego-Exo4D：一个多样化、大规模、多模式、多视角的视频数据集和基准，由 740 名相机佩戴者在全球 13 个城市收集，拍摄了 1286.3 小时的人类熟练活动视频。
Ego4D：这是一个大规模、以自我为中心的数据集和基准套件，在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。
HOI4D：大规模 4D 以自我为中心的数据集，具有丰富的注释，可促进类别级别的人 - 物互动研究。HOI4D 由清华大学、北京大学和上海期智研究院的研究人员创建，采用 CC BY-NC 4.0 许可，禁止商业使用。
GeForce Now：游戏数据。

在又一封邮件当中，Cosmos 项目的成员表示："研究团队目前正在通过多种配置训练一个 10 亿参数的模型，每种配置设有 16 个节点。在继续扩大之前，这是一个至关重要的调试阶段。我们打算在几周内得出成果，接着扩展成 100 亿参数模型。"

"这个消息太妙了！"英伟达 CEO 黄仁勋回了这封邮件，他声称："许多企业都将构建视频基础模型设定为目标，我们完全能够构建一个加速的 pipeline。"

6 月，项目组成员议论了在保持人工智能行业竞争优势的前提下，模型中何种类型的内容对英伟达的产品最具价值。

"NVIDIA 拥有多数内容公司所没有的机器人、自动驾驶、Omniverse 和 Avatar。为了最大程度推动公司进步，我们整合的数据必须能够完美适用于这些'王牌'应用程序"，Cosmos 项目的成员说道。

毫无疑问，Cosmos 团队正在开发的模型旨在服务于其多种产品的商业用途。

在要求这些公司全面公开训练数据的法案落实以前，他们将继续利用法律的模糊地带去获取受版权保护的数据。要是没有内部邮件或者内网对话的泄密，任何人都不了解暗地里究竟发生了什么，而这样的模型能够让像 Nvidia、Runway 或 OpenAI 等科技巨头收获数十亿美元。

参考链接：

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/