Python 获取动态 iframe 内容(完整解决方案)

动态 iframe 指内容由 JavaScript 异步加载 的 iframe,普通的 requests + BeautifulSoup 无法获取,因为它们只能爬取静态 HTML,不执行 JS。

最佳方案:使用 Selenium(自动渲染 JS)

Selenium 可以模拟浏览器,等待 iframe 加载完成后再获取内容,100% 适配动态 iframe

步骤 1:安装依赖

bash 复制代码
pip install selenium webdriver-manager

步骤 2:完整可运行代码

python 复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time

# 1. 初始化浏览器(自动下载驱动,无需手动配置)
driver = webdriver.Chrome(ChromeDriverManager().install())

# 2. 打开目标网页
driver.get("https://你的目标网址.com")

# 3. 等待 iframe 加载完成(关键:解决动态加载问题)
wait = WebDriverWait(driver, 15)  # 最多等待15秒
iframe = wait.until(
    EC.presence_of_element_located((By.TAG_NAME, "iframe"))  # 定位 iframe
)

# 4. 切换到 iframe 内部(必须切换,否则拿不到内容)
driver.switch_to.frame(iframe)

# 5. 获取 iframe 内的完整 HTML 内容
iframe_content = driver.page_source
print("=== iframe 动态内容 ===")
print(iframe_content)

# 6. 也可以直接提取 iframe 内的元素(示例)
# 提取文本
text = driver.find_element(By.TAG_NAME, "body").text
print("\n=== iframe 内文本 ===")
print(text)

# 7. 退出 iframe,回到主页面(可选)
driver.switch_to.default_content()

# 8. 关闭浏览器
driver.quit()

进阶用法(精准定位 iframe)

如果页面有多个 iframe ,不要用 TAG_NAME,改用以下方式定位:

python 复制代码
# 1. 通过 id 定位
iframe = wait.until(EC.presence_of_element_located((By.ID, "iframe_id")))

# 2. 通过 class 定位
iframe = wait.until(EC.presence_of_element_located((By.CLASS_NAME, "iframe_class")))

# 3. 通过 XPath 定位(最通用)
iframe = wait.until(EC.presence_of_element_located((By.XPATH, '//iframe[@src="目标地址"]')))

轻量方案:Playwright(比 Selenium 更快)

如果觉得 Selenium 慢,推荐微软的 Playwright,自动等待动态内容,代码更简洁。

安装

bash 复制代码
pip install playwright
playwright install

代码

python 复制代码
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto("https://你的目标网址.com")
    
    # 等待 iframe 并切换
    iframe = page.frame_locator("iframe")
    # 获取 iframe 内的内容
    content = iframe.locator("body").text_content()
    
    print(content)
    browser.close()

核心知识点(必看)

  1. 动态 iframe 必须用浏览器渲染:requests 无法执行 JS,永远拿不到内容。
  2. 必须切换到 iframe :不执行 switch_to.frame(),只能拿到主页面内容。
  3. 必须等待加载 :动态内容需要时间,用 WebDriverWait 等待,不要用 time.sleep()

总结

  1. 首选 Selenium:兼容性最好,适合新手;
  2. 次选 Playwright:速度更快,代码极简;
  3. 静态 requests 方案完全无效,不要浪费时间。
相关推荐
源码之屋2 小时前
计算机毕业设计:Python天天基金数据采集与智能分析平台 Django框架 数据分析 可视化 爬虫 大数据 大模型(建议收藏)✅
人工智能·爬虫·python·数据分析·django·flask·课程设计
四维迁跃2 小时前
MySQL触发器处理死锁的防范方法_MySQL高并发触发器优化
jvm·数据库·python
minji...2 小时前
Linux 网络套接字编程(三)UDP服务器与客户端实现:Windows与Linux通信,新增字典翻译功能的 UDP 通信
linux·服务器·开发语言·网络·windows·算法·udp
weixin_408717772 小时前
golang如何实现API压测工具_golang API压测工具实现攻略
jvm·数据库·python
人道领域2 小时前
【Redis实战篇】秒杀系统:一人一单高并发实战(synchronized锁实战与事务失效问题)
java·开发语言·数据库·redis·spring
weixin_424999362 小时前
Redis怎样利用Lua脚本批量抓取多类型数据
jvm·数据库·python
微刻时光2 小时前
影刀RPA:嵌套循环深度解析与实战指南
人工智能·python·机器人·自动化·rpa·影刀rpa
0xDevNull2 小时前
Spring中统一异常处理详细教程
java·开发语言·后端
2301_817672262 小时前
Golang怎么写TODO待办应用_Golang TODO应用教程【深入】
jvm·数据库·python