Python 获取动态 iframe 内容(完整解决方案)

动态 iframe 指内容由 JavaScript 异步加载 的 iframe,普通的 requests + BeautifulSoup 无法获取,因为它们只能爬取静态 HTML,不执行 JS。

最佳方案:使用 Selenium(自动渲染 JS)

Selenium 可以模拟浏览器,等待 iframe 加载完成后再获取内容,100% 适配动态 iframe

步骤 1:安装依赖

bash 复制代码
pip install selenium webdriver-manager

步骤 2:完整可运行代码

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time

# 1. 初始化浏览器(自动下载驱动,无需手动配置)
driver = webdriver.Chrome(ChromeDriverManager().install())

# 2. 打开目标网页
driver.get("https://你的目标网址.com")

# 3. 等待 iframe 加载完成(关键:解决动态加载问题)
wait = WebDriverWait(driver, 15)  # 最多等待15秒
iframe = wait.until(
    EC.presence_of_element_located((By.TAG_NAME, "iframe"))  # 定位 iframe
)

# 4. 切换到 iframe 内部(必须切换,否则拿不到内容)
driver.switch_to.frame(iframe)

# 5. 获取 iframe 内的完整 HTML 内容
iframe_content = driver.page_source
print("=== iframe 动态内容 ===")
print(iframe_content)

# 6. 也可以直接提取 iframe 内的元素(示例)
# 提取文本
text = driver.find_element(By.TAG_NAME, "body").text
print("\n=== iframe 内文本 ===")
print(text)

# 7. 退出 iframe,回到主页面(可选)
driver.switch_to.default_content()

# 8. 关闭浏览器
driver.quit()

进阶用法(精准定位 iframe)

如果页面有多个 iframe ,不要用 TAG_NAME,改用以下方式定位:

python 复制代码
# 1. 通过 id 定位
iframe = wait.until(EC.presence_of_element_located((By.ID, "iframe_id")))

# 2. 通过 class 定位
iframe = wait.until(EC.presence_of_element_located((By.CLASS_NAME, "iframe_class")))

# 3. 通过 XPath 定位(最通用)
iframe = wait.until(EC.presence_of_element_located((By.XPATH, '//iframe[@src="目标地址"]')))

轻量方案:Playwright(比 Selenium 更快)

如果觉得 Selenium 慢,推荐微软的 Playwright,自动等待动态内容,代码更简洁。

安装

bash 复制代码
pip install playwright
playwright install

代码

python 复制代码
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto("https://你的目标网址.com")
    
    # 等待 iframe 并切换
    iframe = page.frame_locator("iframe")
    # 获取 iframe 内的内容
    content = iframe.locator("body").text_content()
    
    print(content)
    browser.close()

核心知识点(必看)

  1. 动态 iframe 必须用浏览器渲染:requests 无法执行 JS,永远拿不到内容。
  2. 必须切换到 iframe :不执行 switch_to.frame(),只能拿到主页面内容。
  3. 必须等待加载 :动态内容需要时间,用 WebDriverWait 等待,不要用 time.sleep()

总结

  1. 首选 Selenium:兼容性最好,适合新手;
  2. 次选 Playwright:速度更快,代码极简;
  3. 静态 requests 方案完全无效,不要浪费时间。
相关推荐
磊 子15 小时前
多态类原理+四种类型转换+异常处理
开发语言·c++·算法
脆皮炸鸡75515 小时前
库制作与原理~动态链接
linux·开发语言·经验分享·笔记·学习方法
XMYX-015 小时前
26 - Go recover 捕获错误:优雅恢复的真正意义
开发语言·golang
小白学大数据15 小时前
基于大模型的Python智能爬虫:语义识别与数据清洗实践
开发语言·爬虫·python·数据分析
Cloud_Shy61815 小时前
Python 数据分析基础入门:《Excel Python:飞速搞定数据分析与处理》学习笔记系列(附录 B 高级 VS Code 功能)
vscode·python·jupyter·数据分析·excel
进击切图仔15 小时前
从零手写 RAG
python·huggingface·rag
Dxy123931021615 小时前
Python请求方式介绍:JSON、表单及其他常见数据传输格式
数据库·python·json
迷渡15 小时前
聊一聊 Bun 用 Rust 重写这件事
开发语言·后端·rust
西洼工作室15 小时前
个人开发者接入阿里云号码认证服务AliCloud-NirvanaPns实现一键登录
python·阿里云·uni-app·全栈·认证授权
古怪今人15 小时前
Gradle构建工具 Groovy/Kotlin DSL的现代化自动化构建工具
开发语言·kotlin·自动化