029.爬虫专用浏览器-抓取跨域#document下的内容

一、iframe下的#document是什么

  • #document 是一个特殊的 HTML 元素,表示 <iframe> 元素内部的文档对象。
  • 当你在 HTML 页面中嵌入一个 <iframe> 元素时,浏览器会创建一个新的文档对象来表示 <iframe> 内部的内容。这 个文档对象就是 #document

二、如何获取#document下的内容

1. 使用 contentDocument 属性
js 复制代码
var iframe = document.getElementById('myIframe');
var iframeDocument = iframe.contentDocument;
// 现在可以访问 iframe 文档中的元素了
var heading = iframeDocument.getElementsByTagName('h1')[0];
console.log(heading.textContent);
2. 使用 contentWindow.document
js 复制代码
var iframe = document.getElementById('myIframe');
var iframeDocument = iframe.contentWindow.document;
// 访问 iframe 文档中的元素
var heading = iframeDocument.getElementsByTagName('h1')[0];
console.log(heading.textContent);

注意:如果 iframe 加载的页面与父页面不同源(即协议、域名或端口任一不同),则出于安全考虑,浏览器的同源政策会阻止你访问 iframe 的内容。这种情况下,contentDocument会返回null。

三、如何获取跨域iframe的#document里的内容

  • 网络上有其他解决方案,这里我提供一个修改chromium源码的方案。
  • 这里假设你已经可以熟练编译chromium源码。
1.找到源码:
  • 打开:\third_party\blink\renderer\core\html\html_iframe_element.idl
c 复制代码
[CheckSecurity=ReturnValue] readonly attribute Document? contentDocument;
2.替换为:
c 复制代码
//[CheckSecurity=ReturnValue] readonly attribute Document? contentDocument;
readonly attribute Document? contentDocument;

注意,这里就是把[CheckSecurity=ReturnValue]这段注释掉了,意思是忽略掉安全隔离。

3.编译:
c 复制代码
ninja -C out/Default chrome
4.启动时加上参数(必须)
复制代码
--disable-site-isolation-trials

操作完后,就可以发现,跨域iframe的#document里的内容也可以获取到啦。

四、风险

  • 1.取消跨域隔离有一定安全风险。
  • 2.有些站会做安全隔离检测,可能会被识别到。

如果有更好方案,请留言哈。

相关推荐
烬头882144 分钟前
React Native鸿蒙跨平台实现二维码联系人APP(QRCodeContactApp)
javascript·react native·react.js·ecmascript·harmonyos
pas1361 小时前
40-mini-vue 实现三种联合类型
前端·javascript·vue.js
摇滚侠1 小时前
2 小时快速入门 ES6 基础视频教程
前端·ecmascript·es6
2601_949833391 小时前
flutter_for_openharmony口腔护理app实战+预约管理实现
android·javascript·flutter
珑墨2 小时前
【Turbo】使用介绍
前端
军军君012 小时前
Three.js基础功能学习十三:太阳系实例上
前端·javascript·vue.js·学习·3d·前端框架·three
chatexcel2 小时前
元空AI+Clawdbot:7×24 AI办公智能体新形态详解(长期上下文/自动化任务/工具粘合)
运维·人工智能·自动化
xiaoqi9223 小时前
React Native鸿蒙跨平台如何实现分类页面组件通过searchQuery状态变量管理搜索输入,实现了分类的实时过滤功能
javascript·react native·react.js·ecmascript·harmonyos
打小就很皮...3 小时前
Tesseract.js OCR 中文识别
前端·react.js·ocr
qq_177767373 小时前
React Native鸿蒙跨平台实现应用介绍页,实现了应用信息卡片展示、特色功能网格布局、权限/联系信息陈列、评分展示、模态框详情交互等通用场景
javascript·react native·react.js·ecmascript·交互·harmonyos