多模态 AI 时代的数据困局与机遇,Bright Data 赋能LLM 训练以及AEO场景

前言

单纯依赖文本训练的 LLM 时代正在落幕,多模态 AI 时代已经到来,在LLM训练中,尤其是多模态数据,已经成为 AI 大模型竞赛的核心战场。当无数 AI 团队和研究机构踏入多模态数据采集领域时,却发现自己面临着前所未有的困局:

  • 技术困局:使用 yt-dlp 等工具时,频繁遭遇 IP 封锁和 HTTP 429,成功率降至 30% 以下
  • 规模困局:从百级扩展到百万级时,陷入代理-IP-并发的瓶颈。有团队 4 个工程师 3 个月只采集到 5 万条数据
  • 合规困局:GDPR、CCPA 等法规要求下,大规模采集需确保合规性

随着 SEO 向 AEO(AI Engine Optimization)转型,实时监测 AI 搜索结果成为新需求,这同样依赖强大的数据采集能力。然而Bright Data 提供企业级数据采集基础设施,7200 万+ 真实 IP、Web Unlocker 智能解锁技术,帮助 AI 团队构建完整的多模态训练数据管道。

一、 Bright Data 亮数据 如何 破解反爬虫

Bright Data 的 Web Unlocker 代表了数据采集技术的重大突破。它不同于传统代理或简单的请求重试,而是一个集成了多种反爬虫应对策略的智能系统:

1、自动绕过验证码

  • 集成 reCAPTCHA、hCaptcha、Cloudflare Turnstile 等主流验证码解决方案
  • 无需人工介入,自动识别并通过验证

2、动态 IP 轮换

  • 从 7200 万+ 真实住宅 IP 池中智能选择
  • 模拟真实用户行为,避免被识别为爬虫

3、浏览器指纹管理

  • 自动处理 User-Agent、Canvas 指纹、WebGL 指纹等
  • 确保每次请求看起来来自不同的真实用户

4、JavaScript 渲染

  • 支持动态网页内容加载
  • 完整执行 JavaScript,获取 AJAX 加载的数据

5、重试与容错机制

  • 智能识别失败原因(IP 封锁、超时、服务器错误等)
  • 自动切换策略重试,确保高成功率

二、基于 B r i g h t Data亮数据 爬取音视频数据

1、创建 API

登录到注册登录Bright Data平台(目前注册免费使用,且API产品75折)

这里我们选择左侧菜单栏中的Web Access,然后点击Create an API

选择Web Unlocker API,其可以使用自定义的指纹和cookies来利用住宅代理,求解验证码,渲染JS的自动化单步抓取。

然后填写通道名称、通道描述,最后点击添加API

我们可以看到Web Unlocker API 已经创建成功

2、API内容

Web Unlocker API 主要有以下几部分组成

  • API 地址:https://api.brightdata.com/request
  • Authorization: Bearer [INSERT YOUR API key]您的 API 密钥位于您的 Web Unlocker API 区域中。
  • zone:您的特定 Web Unlocker API区域名称。
  • url:通过 Web Unlocker API 访问的目标 URL。
  • format:定义响应格式。用于raw接收来自目标站点的原始响应。
  • 可选\] body:指定发送到目标 URL 的原始 POST 请求负载。例如"body": "{\\"key\\":\\"value\\"}"

接下来测试下这个脚本,可以看到最终的输出结果,说明测试脚本是可以正常运行

4、爬取YouTube视频

(1) 确定爬取URL

目标URL如下,其中keyword就是搜索的关键字,

[https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)](https://www.youtube.com/results?search_query=${encodeURIComponent(keyword) "https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)")

(2) 爬取关键字

这里我将AI tutorial、machine learning、python programming作为爬取关键字

复制代码
 const searches = [`
`    { keyword: 'AI tutorial', count: 10 },`
`    { keyword: 'machine learning', count: 10 },`
`    { keyword: 'python programming', count: 10 },`
`  ];`
`

(3)使用Web Unlocker API 爬取数据

使用web unlocker api获取数据,其中BRIGHTDATA_TOKEN需要替换自己的token,需要在平台中获取

复制代码
  const response = await fetch('https://api.brightdata.com/request', {`
`    method: 'POST',`
`    headers: {`
`      'Authorization': `Bearer ${BRIGHTDATA_TOKEN}`,`
`      'Content-Type': 'application/json'`
`    },`
`    body: JSON.stringify({`
`      zone: 'web_unlocker2',`
`      url: searchUrl,`
`      format: 'raw'`
`    })`
`  });`

`

(4) 数据处理

获取到数据之后,需要从结果中提取视频链接

复制代码
  const html = await response.text();`
  
`  // 提取视频ID`
`  const videoIds = new Set();`
`  const pattern = /"videoId":"([a-zA-Z0-9_-]{11})"/g;`
`  let match;`
  
`  while ((match = pattern.exec(html)) !== null && videoIds.size < maxResults) {`
`    if (match[1].length === 11) {`
`      videoIds.add(match[1]);`
`    }`
`  }`
  
`  const links = Array.from(videoIds).map(id => `https://www.youtube.com/watch?v=${id}`);`
`

(5)爬取结果

最终可以在youtobe_links.json文件中看到爬取到的数据

复制代码
[`
  `"https://www.youtube.com/watch?v=JMUxmLyrhSk",`
  `"https://www.youtube.com/watch?v=-NTzW2Jvris",`
  `"https://www.youtube.com/watch?v=0vfZFL-ftz0",`
  `"https://www.youtube.com/watch?v=9c7zh2MkslY",`
  `"https://www.youtube.com/watch?v=yHk7Vavmc7Q",`
  `"https://www.youtube.com/watch?v=Yq0QkCxoTHM",`
  `"https://www.youtube.com/watch?v=sVcwVQRHIc8",`
  `"https://www.youtube.com/watch?v=UyHy3HCry-A",`
  `"https://www.youtube.com/watch?v=15PK38MUEPM",`
  `"https://www.youtube.com/watch?v=2Sb1Gvo5si8",`
  `"https://www.youtube.com/watch?v=ukzFI9rgwfU",`
  `"https://www.youtube.com/watch?v=PeMlggyqz0Y",`
  `"https://www.youtube.com/watch?v=wvgjo-87aVA",`
  `"https://www.youtube.com/watch?v=OK0YhF3NMpQ",`
  `"https://www.youtube.com/watch?v=r6Fv1F8YQCI",`
  `"https://www.youtube.com/watch?v=9v7b8gOIkjw",`
  `"https://www.youtube.com/watch?v=FbtYxPUrhq8",`
  `"https://www.youtube.com/watch?v=2oOEctI1Uzo",`
  `"https://www.youtube.com/watch?v=SL4FfHFGf0g",`
  `"https://www.youtube.com/watch?v=Coe4XTW1-eE",`
  `"https://www.youtube.com/watch?v=80yIVH2aOy0",`
  `"https://www.youtube.com/watch?v=GfWRxr1OBm4",`
  `"https://www.youtube.com/watch?v=fXxUYb0s-pc",`
  `"https://www.youtube.com/watch?v=IfKlGhRc7Dc",`
  `"https://www.youtube.com/watch?v=o4F3G5g5H-Y",`
  `"https://www.youtube.com/watch?v=Mf9GCn_LsUI",`
  `"https://www.youtube.com/watch?v=nluUYtejoIE",`
  `"https://www.youtube.com/watch?v=_3Evgblmfwo",`
  `"https://www.youtube.com/watch?v=XKYMGepj7Y8",`
  `"https://www.youtube.com/watch?v=L5EWvj8wu_c"`
`]`
`

5、 源码

复制代码
const` `BRIGHTDATA_TOKEN` `=` `'bf45b275da3381a6de03d58dd50d8c134ca81c106a2f9b0b54eb103f3b85183b';`
`const fs =` `require('fs');`

`// 搜索并获取视频链接`
`async` `function` `searchVideoLinks(keyword, maxResults = 10)` `{`
`  console.log(`🔍 搜索: "${keyword}" (获取 ${maxResults} 个)`);`
  
  `const searchUrl =` ``https://www.youtube.com/results?search_query=${encodeURIComponent(keyword)}`;`
  
  `const response =` `await` `fetch('https://api.brightdata.com/request',` `{`
`    method:` `'POST',`
`    headers:` `{`
      `'Authorization':` ``Bearer ${BRIGHTDATA_TOKEN}`,`
      `'Content-Type':` `'application/json'`
    `},`
`    body:` `JSON.stringify({`
`      zone:` `'web_unlocker1',`
`      url: searchUrl,`
`      format:` `'raw'`
    `})`
  `});`

  `const html =` `await response.text();`
  
  `// 提取视频ID`
  `const videoIds =` `new` `Set();`
  `const pattern =` `/"videoId":"([a-zA-Z0-9_-]{11})"/g;`
  `let match;`
  
  `while` `((match = pattern.exec(html))` `!==` `null` `&& videoIds.size < maxResults)` `{`
    `if` `(match[1].length ===` `11)` `{`
`      videoIds.add(match[1]);`
    `}`
  `}`
  
  `const links = Array.from(videoIds).map(id` `=>` ``https://www.youtube.com/watch?v=${id}`);`
  
`  console.log(`✅ 找到 ${links.length} 个视频链接\n`);`
  
  `return links;`
`}`

`// 主程序`
`(async` `()` `=>` `{`
`  console.log('\n🎬 YouTube 视频链接采集器\n');`
`  console.log('='.repeat(60)` `+` `'\n');`
  
  `// 🎯 配置搜索关键词`
  `const searches =` `[`
    `{ keyword:` `'AI tutorial', count:` `10` `},`
    `{ keyword:` `'machine learning', count:` `10` `},`
    `{ keyword:` `'python programming', count:` `10` `},`
  `];`
  
  `let allLinks =` `[];`
  
  `for` `(const search of searches)` `{`
    `const links =` `await` `searchVideoLinks(search.keyword, search.count);`
`    allLinks.push(...links);`
    
    `// 显示链接`
`    links.forEach((link, i)` `=>` `{`
`      console.log(`  ${i + 1}. ${link}`);`
    `});`
`    console.log('');`
    
    `// 延迟`
    `await` `new` `Promise(r` `=>` `setTimeout(r,` `2000));`
  `}`
  
`  console.log('='.repeat(60));`
`  console.log(`\n📊 总计: ${allLinks.length} 个视频链接\n`);`
  
  `// 保存为简单的文本文件`
`  fs.writeFileSync('youtube_links.txt', allLinks.join('\n'));`
`  console.log('💾 已保存到: youtube_links.txt');`
  
  `// 也保存为JSON`
`  fs.writeFileSync('youtube_links.json',` `JSON.stringify(allLinks,` `null,` `2));`
`  console.log('💾 已保存到: youtube_links.json\n');`
  
`})()`
`

四、 基于 Bright D a t a 亮数据 的 AEO 监测方案

当今用户可能不会再对传统的搜索引擎进行"最好的 AI 视频工具"进行搜索,而是直接问 AI 工具:"帮我推荐视频编辑 AI 工具"时,传统 SEO 的价值开始下降,AI Engine Optimization(AEO)正在成为新的营销战场,并且其优势非常显著。那么AEO 数据采集能解决哪些问题呢?

  • 品牌需要实时监测自己在各类 AI 引擎中的表现,这涉及:多平台监测:ChatGPT、Claude、Perplexity、Google SGE、Bing Chat
  • 动态内容:AI 回答是实时生成的,传统爬虫无法获取
  • 高频采集:需要每天甚至每小时监测
  • 结构化提取:从自然语言回答中提取品牌提及、排名等信息

1、 具体案例

检测的平台: Google、Bing、Baidu

监测的品牌:Amazon

检索的关键字:

复制代码
` `[`
    `'跨境电商平台推荐',`
    `'最好的跨境电商平台',`
    `'跨境电商怎么做',`
    `'跨境电商平台对比',`
    `'cross-border e-commerce platform'`
  `]`
`

Web Unlocker检索数据

复制代码
const response =` `await` `fetch('https://api.brightdata.com/request',` `{`
`    method:` `'POST',`
`    headers:` `{`
      `'Authorization':` ``Bearer ${BRIGHTDATA_TOKEN}`,`
      `'Content-Type':` `'application/json'`
    `},`
`    body:` `JSON.stringify({`
`      zone:` `'web_unlocker1',`
`      url: url,`
`      format:` `'raw'`
    `})`
  `});`
`

其中URL,

复制代码
//Google`
`const searchUrl =` ``https://www.google.com/search?q=${encodeURIComponent(query)}`;`
`//Bing`
 `const searchUrl =` ``https://www.bing.com/search?q=${encodeURIComponent(query)}`;`
`//百度`  
`const searchUrl =` ``https://www.baidu.com/s?wd=${encodeURIComponent(query)}`;`
`

这里呢,我以Bing为案例进行检索,从关键字选取两个进行检索。

2、输出结果

最终输出结果:

最终输出的aeo_report.json文件如下:

复制代码
{`
  `"brand":` `"Amazon",`
  `"timestamp":` `"2025-11-03T01:42:06.713Z",`
  `"queries":` `[`
    `"跨境电商平台推荐",`
    `"最好的跨境电商平台"`
  `],`
  `"platforms":` `{`
    `"bing":` `[`
      `{`
        `"query":` `"跨境电商平台推荐",`
        `"platform":` `"Bing",`
        `"mentioned":` `true,`
        `"firstPosition":` `-1,`
        `"totalLinks":` `0,`
        `"links":` `[],`
        `"timestamp":` `"2025-11-03T01:41:12.104Z"`
      `},`
      `{`
        `"query":` `"最好的跨境电商平台",`
        `"platform":` `"Bing",`
        `"mentioned":` `true,`
        `"firstPosition":` `-1,`
        `"totalLinks":` `0,`
        `"links":` `[],`
        `"timestamp":` `"2025-11-03T01:42:03.684Z"`
      `}`
    `]`
  `},`
  `"summary":` `{`
    `"bing":` `{`
      `"mentions":` `2,`
      `"total":` `2,`
      `"rate":` `"100.0"`
    `},`
    `"overall":` `{`
      `"totalMentions":` `2,`
      `"totalQueries":` `2,`
      `"rate":` `"100.0"`
    `}`
  `}`
`}

最后

基于 Bright Data亮数据的Web Unlocker音视频数据采集以及 AEO 品牌监测方案展示出Bright Data 如何破解行业痛点:一方面,通过企业级基础设施彻底解决 yt-dlp 等开源工具面临的封禁困境,让 YouTube、TikTok 等平台的视频、音频、字幕数据能够大规模、结构化地服务于 LLM 多模态训练;另一方面,针对传统 SEO 向 AI Engine Optimization (AEO) 转型的趋势,提供 Google、Bing、百度及 AI 搜索引擎的品牌监测能力,帮助企业掌握在 ChatGPT、Perplexity 等新一代智能入口中的曝光与排名。凭借 99.9% 高可用、无限并发、只为成功付费的优势,Bright Data 已在头部 AI 实验室与企业中得到验证,让数据不再成为 AI 创新的瓶颈,而是加速前行的引擎。

相关推荐
爱吃烤鸡翅的酸菜鱼2 小时前
深度解析《AI+Java编程入门》:一本为零基础重构的Java学习路径
java·人工智能·后端·ai
snakecy2 小时前
智能家居技术发展与应用综述
人工智能·区块链
飞哥数智坊2 小时前
实测 TRAE SOLO 新模型:半小时搓出一个能用的抽奖系统
人工智能·trae·solo
Juchecar3 小时前
母语,塑造和构成了我们的思维过程本身
人工智能
苏打水com3 小时前
0基础学前端:100天拿offer实战课(第3天)—— CSS基础美化:给网页“精装修”的5大核心技巧
人工智能·python·tensorflow
NON-JUDGMENTAL3 小时前
CyberSecEval 2
人工智能
智驱力人工智能3 小时前
智能安全管理 基于视觉分析的玩手机检测系统 手机行为AI模型训练 边缘计算手机行为监测设备
人工智能·安全·目标检测·计算机视觉·智能手机·视觉检测·边缘计算
芯盾时代3 小时前
CIPS系统迎来重大升级
大数据·人工智能·跨境支付·芯盾时代
ManageEngineITSM3 小时前
重构可见性:IT资产管理的下一次觉醒
大数据·人工智能·重构·自动化·itsm·工单系统