风火编程--playwright爬虫

playwright爬虫基本用法

等待加载

page.wait_for_load_state('networkidle')

text = page.content()

点击

demo

python 复制代码
 with sync_playwright() as pw:
        browser = pw.chromium.launch(headless=True)
        context = browser.new_context()
        page = context.new_page()
        page.goto(url)
        page.wait_for_load_state('networkidle')
        text = page.content()
        page.close()
        context.close()
        browser.close()
    info = parse_info(text)
    title = re.findall('''"Buy now:(.+?)",''', text)[0]

禁止加载图片

复制代码
    page.route("**/*", lambda route: route.abort()
    if route.request.resource_type == "image"
    else route.continue_())

登录状态

保存

python 复制代码
context.storage_state(path='login_data.json')

使用

python 复制代码
context = browser.new_context(storage_state='login_data.json')
相关推荐
ccchen8881 小时前
适配帝国CMS 8.0:全新帝国CMS免登录采集发布插件
经验分享·爬虫·php·帝国cms自动采集发布插件·帝国cms8.0·帝国cms自动采集插件·帝国cms采集发布模块
小鸡吃米…1 小时前
Python 网络爬虫 —— 环境设置
开发语言·爬虫·python
嫂子的姐夫3 小时前
041-全扣补环境:同花顺
爬虫·python·js逆向·逆向
爱写bug的野原新之助3 小时前
爬虫之补环境:加载原型链
前端·javascript·爬虫
海边的梦3 小时前
爬虫对抗:ZLibrary反爬机制实战分析 技术文章大纲
爬虫
进击的雷神3 小时前
主办方过滤、展位号模糊提取、多层级官网爬取、缅文编码解码——缅甸塑料展爬虫四大技术难关攻克纪实
网络·爬虫·python
core5123 小时前
多源车辆数据打通实战指南:从12123接口、爬虫获取电动自行车车辆信息到备案数据推送六合一平台
爬虫·电动自行车·12123·车辆信息·六合一·备案数据
嫂子的姐夫4 小时前
040-spiderbuf第C8题
javascript·爬虫·python·js逆向·逆向
嫂子的姐夫5 小时前
043-spiderbuf第C3题
爬虫·python·js逆向·逆向
Abcdsa5 小时前
爬虫对抗:ZLibrary反爬机制实战分析技术文章大纲
爬虫