风火编程--playwright爬虫

playwright爬虫基本用法

等待加载

page.wait_for_load_state('networkidle')

text = page.content()

点击

demo

python 复制代码
 with sync_playwright() as pw:
        browser = pw.chromium.launch(headless=True)
        context = browser.new_context()
        page = context.new_page()
        page.goto(url)
        page.wait_for_load_state('networkidle')
        text = page.content()
        page.close()
        context.close()
        browser.close()
    info = parse_info(text)
    title = re.findall('''"Buy now:(.+?)",''', text)[0]

禁止加载图片

复制代码
    page.route("**/*", lambda route: route.abort()
    if route.request.resource_type == "image"
    else route.continue_())

登录状态

保存

python 复制代码
context.storage_state(path='login_data.json')

使用

python 复制代码
context = browser.new_context(storage_state='login_data.json')
相关推荐
数据知道13 小时前
浏览器硬件参数欺骗:CPU核心数、内存大小、设备像素比的精准伪造
爬虫·数据采集·指纹浏览器·浏览器指纹
如烟花的信页15 小时前
加速乐cookie逆向分析
javascript·爬虫·python·js逆向
xmtxz16 小时前
Burp Suite、爬虫、目录扫描工具实操深度总结
爬虫
yijianace17 小时前
Python爬虫实战:BooksToScrape 多线程爬取与图片下载
开发语言·爬虫·python
深蓝电商API19 小时前
Playwright 多浏览器并发:同时操控 100 个 Chrome 实例
爬虫·playwright
数据知道1 天前
斩断 `navigator` 前端:底层重写 UserAgent/Platform/Language 属性描述符
爬虫·数据采集·指纹浏览器·浏览器指纹
深蓝电商API1 天前
Playwright深入浅出:从入门到企业级项目实战
爬虫·playwright
小白学大数据2 天前
爬虫性能天花板:asyncio赋能 Aiohttp,并发提速 10 倍
开发语言·爬虫·数据分析
yijianace2 天前
Python爬虫实战:分页爬取 + 详情页采集 + CSV存储
前端·爬虫·python
yijianace2 天前
Python爬虫实战:ThreadPoolExecutor多线程采集书籍信息与图片下载
开发语言·爬虫·python