【教程】新的Selenium!整合了隐藏浏览器指纹等功能

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~

目录

前景提要

[driver = Driver()](#driver = Driver())

[常用driver 接口](#常用driver 接口)

最后的话


前景提要

新的selenium,整合了隐藏浏览器指纹,非常好用:

GitHub - seleniumbase/SeleniumBase📊 Python's all-in-one framework for web crawling, scraping, testing, and reporting. Supports pytest. UC Mode provides stealth. Includes many tools. - seleniumbase/SeleniumBasehttps://github.com/seleniumbase/SeleniumBase 虽然官方的例程比较多,但相关文档的说明和解释不是很完善,所以这里简单记录一下常用的,以便查阅。本内容将根据我用到的内容不断更新。


driver = Driver()

比如可以这样用:

python 复制代码
driver = Driver(browser="chrome", headless2=False, proxy="127.0.0.1:7890", undetectable=True, incognito=True, enable_3d_apis=False, do_not_track=True, binary_location="./chrome.exe", driver_version="./chromedriver.exe", page_load_strategy="normal",)

这是一个复杂的函数定义,用于配置和启动一个基于 Selenium 的浏览器驱动程序(如 Chrome、Edge、Firefox 或 Safari)。每个参数都提供了不同的配置选项,允许用户定制浏览器的行为和特性。以下是每个参数的详细解释:

python 复制代码
def Driver(
    # 选择使用的浏览器类型,包括 "chrome"、"edge"、"firefox" 或 "safari"。
    browser=None,
    # 使用原始的无头模式(适用于 Chromium 和 Firefox)。
    headless=None,
    # Chromium 的新无头模式(具有更多功能)。
    headless2=None,
    # 在 Linux 上以有头/GUI 模式运行测试,非默认选项。
    headed=None,
    # 设置浏览器的语言区域代码。
    locale_code=None,
    # Selenium Grid 协议,选项为 "http" 或 "https"。
    protocol=None,
    # 用于测试的 Selenium Grid 服务器或 IP。
    servername=None,
    # 测试服务器使用的 Selenium Grid 端口。
    port=None,
    # 使用代理服务器。格式为 "SERVER:PORT" 或 "USER:PASS@SERVER:PORT"。
    proxy=None,
    # 在使用代理时跳过的域列表。
    proxy_bypass_list=None,
    # 使用 PAC 文件。格式为 URL 或 "USERNAME:PASSWORD@URL"。
    proxy_pac_url=None,
    # 在多线程情况下允许多个具有身份验证的代理。
    multi_proxy=False,
    # 修改浏览器的 User-Agent 字符串。
    agent=None,
    # 与 Selenium Grid 一起使用的期望能力文件。
    cap_file=None,
    # 与 Selenium Grid 一起使用的期望能力字符串。
    cap_string=None,
    # 启用 SeleniumBase Recorder 的 Chromium 扩展。
    recorder_ext=None,
    # 禁用网站的 JavaScript。页面可能会因此中断。
    disable_js=None,
    # 禁用网站的内容安全策略。
    disable_csp=None,
    # 在基于 Chromium 的浏览器上启用 Web 安全性。
    enable_ws=None,
    # 禁用 Web 安全性(与 enable_ws 相反,None 和 False 有区别)。
    disable_ws=None,
    # 在网站上启用 Chrome 同步。
    enable_sync=None,
    # 使用 Chrome 的自动化扩展。
    use_auto_ext=None,
    # 使用 undetected-chromedriver 以规避反机器人检测。
    undetectable=None,
    # 在 undetected-chromedriver 模式下捕获 CDP 事件。
    uc_cdp_events=None,
    # 使用 undetected-chromedriver 作为子进程。
    uc_subprocess=None,
    # 捕获 CDP 事件("performance": "ALL", "browser": "ALL")。
    log_cdp_events=None,
    # 弃用参数 - "--no-sandbox" 现在总是使用。
    no_sandbox=None,
    # 弃用参数 - 如果不是 "swiftshader",GPU 会被禁用。
    disable_gpu=None,
    # 启用 Chromium 的隐身模式。
    incognito=None,
    # 启用 Chromium 的访客模式。
    guest_mode=None,
    # 启用 Chromium 的黑暗模式。
    dark_mode=None,
    # 在浏览器打开时启用 Chromium 的开发者工具。
    devtools=None,
    # 在 "http://localhost:9222" 启用 Chrome 的调试器。
    remote_debug=None,
    # 启用 WebGL 和 3D APIs。
    enable_3d_apis=None,
    # 启用 Chrome 的 swiftshader(--use-gl=angle / --use-angle=swiftshader-webgl)。
    swiftshader=None,
    # 屏蔽某些类型的显示广告。
    ad_block_on=None,
    # 设置主机解析规则,用逗号分隔。
    host_resolver_rules=None,
    # 在测试期间阻止图像加载。
    block_images=None,
    # 告诉网站您不想被跟踪。
    do_not_track=None,
    # 设置 Chromium 参数,用逗号分隔。
    chromium_arg=None,
    # 设置 Firefox 参数,用逗号分隔。
    firefox_arg=None,
    # 设置 Firefox 首选项和值,用逗号分隔。
    firefox_pref=None,
    # 设置 Chrome 用户数据目录。
    user_data_dir=None,
    # 加载 Chrome 扩展 .zip 或 .crx 文件,用逗号分隔。
    extension_zip=None,
    # 加载 Chrome 扩展目录,用逗号分隔。
    extension_dir=None,
    # 禁用 Chrome 特性,用逗号分隔。
    disable_features=None,
    # 设置要使用的 Chromium 浏览器二进制文件路径。
    binary_location=None,
    # 设置 chromedriver 或 uc_driver 的版本。
    driver_version=None,
    # 设置 Chrome 页面加载策略,选项为 "normal"、"eager" 或 "none"。
    page_load_strategy=None,
    # 使用 selenium-wire 的 webdriver 代替 selenium webdriver。
    use_wire=None,
    # 设置 Chrome "plugins.always_open_pdf_externally": True。
    external_pdf=None,
    # 在运行测试时使用移动设备模拟器。
    is_mobile=None,
    # is_mobile 的快捷方式/重复项。
    mobile=None,
    # 设置设备宽度。
    d_width=None,
    # 设置设备高度。
    d_height=None,
    # 设置设备像素比。
    d_p_r=None,
    # undetectable 的快捷方式/重复项。
    uc=None,
    # undetectable 的快捷方式/重复项。
    undetected=None,
    # uc_cdp_events 的快捷方式/重复项。
    uc_cdp=None,
    # uc_subprocess 的快捷方式/重复项。
    uc_sub=None,
    # log_cdp_events 的快捷方式/重复项。
    log_cdp=None,
    # ad_block_on 的快捷方式/重复项。
    ad_block=None,
    # servername 的快捷方式/重复项。
    server=None,
    # guest_mode 的快捷方式/重复项。
    guest=None,
    # use_wire 的快捷方式/重复项。
    wire=None,
    # page_load_strategy 的快捷方式/重复项。
    pls=None,
):

常用driver 接口

method_summary.md

接口函数定义:

python 复制代码
self.open(url)
# 打开指定的 URL。
# 其他命名方式: self.open_url(url), self.visit(url), visit_url(url), self.goto(url), self.go_to(url)

self.get(url)
# 如果参数是 URL,则执行 self.open(url)。
# 否则返回 self.get_element(URL_AS_A_SELECTOR)。

self.click(selector, by="css selector", timeout=None, delay=0, scroll=True)
# 点击指定的元素。

self.slow_click(selector, by="css selector", timeout=None)
# 缓慢点击指定的元素。

self.double_click(selector, by="css selector", timeout=None)
# 双击指定的元素。

self.context_click(selector, by="css selector", timeout=None)
# 右键点击指定的元素。
# 其他命名方式: self.right_click(selector, by="css selector", timeout=None)

self.click_chain(selectors_list, by="css selector", timeout=None, spacing=0)
# 按顺序点击一组元素。

self.type(selector, text, by="css selector", timeout=None)
# 在指定的元素中输入文本。
# 其他命名方式: self.update_text(selector, text, by="css selector", timeout=None), self.input(selector, text, by="css selector", timeout=None), self.fill(selector, text, by="css selector", timeout=None), self.write(selector, text, by="css selector", timeout=None)

self.send_keys(selector, text, by="css selector", timeout=None)
# 向指定的元素发送键盘输入。
# 其他命名方式: self.add_text(selector, text, by="css selector", timeout=None)

self.press_keys(selector, text, by="css selector", timeout=None)
# 向指定的元素发送键盘按键。

self.submit(selector, by="css selector")
# 提交指定的表单。

self.clear(selector, by="css selector", timeout=None)
# 清除指定元素的内容。

self.focus(selector, by="css selector", timeout=None)
# 聚焦到指定的元素。

self.refresh()
# 刷新当前页面。
# 其他命名方式: self.refresh_page(), self.reload_page(), self.reload()

self.get_current_url()
# 获取当前页面的 URL。

self.get_origin()
# 获取当前页面的原始 URL。

self.get_page_source()
# 获取当前页面的源代码。

self.get_title()
# 获取当前页面的标题。
# 其他命名方式: self.get_page_title()

self.get_user_agent()
# 获取浏览器的用户代理字符串。

self.get_locale_code()
# 获取浏览器的语言区域代码。

self.go_back()
# 导航到浏览器历史记录的上一页。

self.go_forward()
# 导航到浏览器历史记录的下一页。

self.open_start_page()
# 打开初始页面。

self.open_if_not_url(url)
# 如果当前 URL 不是指定的 URL,则打开它。

self.is_element_present(selector, by="css selector")
# 检查指定的元素是否存在。

self.is_element_visible(selector, by="css selector")
# 检查指定的元素是否可见。

self.is_element_clickable(selector, by="css selector")
# 检查指定的元素是否可点击。

self.is_element_enabled(selector, by="css selector")
# 检查指定的元素是否启用。

self.is_text_visible(text, selector="html", by="css selector")
# 检查指定的文本在元素中是否可见。

self.is_exact_text_visible(text, selector="html", by="css selector")
# 检查指定的精确文本在元素中是否可见。

self.is_non_empty_text_visible(selector="html", by="css selector")
# 检查指定的元素是否包含非空文本。

self.is_attribute_present(selector, attribute, value=None, by="css selector")
# 检查指定的元素是否具有指定的属性和值。

self.is_link_text_visible(link_text)
# 检查指定的链接文本是否可见。

self.is_partial_link_text_visible(partial_link_text)
# 检查指定的部分链接文本是否可见。

self.is_link_text_present(link_text)
# 检查指定的链接文本是否存在。

self.is_partial_link_text_present(link_text)
# 检查指定的部分链接文本是否存在。

self.get_link_attribute(link_text, attribute, hard_fail=True)
# 获取指定链接文本的属性值。
# 其他命名方式: self.get_link_text_attribute(link_text, attribute, hard_fail=True)

self.get_partial_link_text_attribute(link_text, attribute, hard_fail=True)
# 获取指定部分链接文本的属性值。

self.click_link(link_text, timeout=None)
# 点击指定的链接文本。
# 其他命名方式: self.click_link_text(link_text, timeout=None)

self.click_partial_link(partial_link_text, timeout=None)
# 点击指定的部分链接文本。
# 其他命名方式: self.click_partial_link_text(partial_link_text, timeout=None)

self.get_text(selector="html", by="css selector", timeout=None)
# 获取指定元素的文本内容。

self.get_attribute(selector, attribute, by="css selector", timeout=None, hard_fail=True)
# 获取指定元素的属性值。

self.set_attribute(selector, attribute, value, by="css selector", timeout=None, scroll=False)
# 设置指定元素的属性值。

self.set_attributes(selector, attribute, value, by="css selector")
# 设置多个元素的属性值。
# 其他命名方式: self.set_attribute_all(selector, attribute, value, by="css selector")

self.remove_attribute(selector, attribute, by="css selector", timeout=None)
# 移除指定元素的属性。

self.remove_attributes(selector, attribute, by="css selector")
# 移除多个元素的属性。

self.get_property(selector, property, by="css selector", timeout=None)
# 获取指定元素的属性值。

self.get_text_content(selector="html", by="css selector", timeout=None)
# 获取指定元素的文本内容。

self.get_property_value(selector, property, by="css selector", timeout=None)
# 获取指定元素的属性值。

self.get_image_url(selector, by="css selector", timeout=None)
# 获取指定图像元素的 URL。

self.find_elements(selector, by="css selector", limit=0)
# 查找所有匹配的元素。

self.find_visible_elements(selector, by="css selector", limit=0)
# 查找所有可见的匹配元素。

self.click_visible_elements(selector, by="css selector", limit=0, timeout=None)
# 点击所有可见的匹配元素。

self.click_nth_visible_element(selector, number, by="css selector", timeout=None)
# 点击第 N 个可见的匹配元素。

self.click_if_visible(selector, by="css selector", timeout=0)
# 如果元素可见则点击。

self.click_active_element()
# 点击当前活动元素。

self.click_with_offset(
    selector, x, y, by="css selector", mark=None, timeout=None, center=None)
# 点击元素的指定偏移位置。

self.double_click_with_offset(
    selector, x, y, by="css selector", mark=None, timeout=None, center=None)
# 双击元素的指定偏移位置。

self.is_checked(selector, by="css selector", timeout=None)
# 检查指定的复选框是否被选中。
# 其他命名方式: self.is_selected(selector, by="css selector", timeout=None)

self.check_if_unchecked(selector, by="css selector")
# 如果复选框未选中则选中。
# 其他命名方式: self.select_if_unselected(selector, by="css selector")

self.uncheck_if_checked(selector, by="css selector")
# 如果复选框被选中则取消选中。
# 其他命名方式: self.unselect_if_selected(selector, by="css selector")

self.is_element_in_an_iframe(selector, by="css selector")
# 检查指定元素是否在 iframe 中。

self.switch_to_frame_of_element(selector, by="css selector")
# 切换到包含指定元素的 iframe。

self.hover(selector, by="css selector", timeout=None)
# 悬停在指定元素上。
# 其他命名方式: self.hover_on_element(selector, by="css selector", timeout=None), self.hover_over_element(selector, by="css selector", timeout=None)

self.hover_and_click(
    hover_selector, click_selector,
    hover_by="css selector", click_by="css selector",
    timeout=None, js_click=False)
# 悬停在一个元素上然后点击另一个元素。

self.hover_and_js_click(
    hover_selector, click_selector,
    hover_by="css selector", click_by="css selector",
    timeout=None)
# 悬停在一个元素上然后使用 JavaScript 点击另一个元素。

self.hover_and_double_click(
    hover_selector, click_selector,
    hover_by="css selector", click_by="css selector",
    timeout=None)
# 悬停在一个元素上然后双击另一个元素。

self.drag_and_drop(
    drag_selector, drop_selector,
    drag_by="css selector", drop_by="css selector",
    timeout=None, jquery=False)
# 拖动一个元素并放置到另一个元素上。

self.drag_and_drop_with_offset(
    selector, x, y, by="css selector", timeout=None)
# 拖动元素到指定的偏移位置。

self.select_option_by_text(
    dropdown_selector, option, dropdown_by="css selector", timeout=None)
# 通过文本选择下拉选项。

self.select_option_by_index(
    dropdown_selector, option, dropdown_by="css selector", timeout=None)
# 通过索引选择下拉选项。

self.select_option_by_value(
    dropdown_selector, option, dropdown_by="css selector", timeout=None)
# 通过值选择下拉选项。

self.get_select_options(
    dropdown_selector, attribute="text", by="css selector", timeout=None)
# 获取下拉选项的属性值。

self.load_html_string(html_string, new_page=True)
# 加载 HTML 字符串。

self.set_content(html_string, new_page=False)
# 设置 HTML 内容。

self.load_html_file(html_file, new_page=True)
# 加载 HTML 文件。

self.open_html_file(html_file)
# 打开 HTML 文件。

self.execute_script(script, *args, **kwargs)
# 执行 JavaScript 脚本。

self.execute_cdp_cmd(script, *args, **kwargs)
# 执行 Chrome DevTools 协议命令。

self.execute_async_script(script, timeout=None)
# 执行异步 JavaScript 脚本。

self.safe_execute_script(script, *args, **kwargs)
# 安全执行 JavaScript 脚本。

self.get_gui_element_rect(selector, by="css selector")
# 获取 GUI 元素的矩形。

self.get_gui_element_center(selector, by="css selector")
# 获取 GUI 元素的中心点。

self.get_window_rect()
# 获取浏览器窗口的矩形。

self.get_window_size()
# 获取浏览器窗口的大小。

self.get_window_position()
# 获取浏览器窗口的位置。

self.set_window_rect(x, y, width, height)
# 设置浏览器窗口的矩形。

self.set_window_size(width, height)
# 设置浏览器窗口的大小。

self.set_window_position(x, y)
# 设置浏览器窗口的位置。

self.maximize_window()
# 最大化浏览器窗口。

self.switch_to_frame(frame="iframe", timeout=None)
# 切换到指定的 iframe。

self.switch_to_default_content()
# 切换到默认内容(退出 iframe)。

self.switch_to_parent_frame()
# 切换到父 iframe。

with self.frame_switch(frame, timeout=None):
    # 使用上下文管理器切换到指定的 iframe。

self.set_content_to_frame(frame, timeout=None)
# 设置内容到指定的 iframe。

self.set_content_to_default(nested=False)
# 设置内容到默认(退出 iframe)。
# 其他命名方式: self.set_content_to_default_content(nested=False)

self.set_content_to_parent()
# 设置内容到父 iframe。
# 其他命名方式: self.set_content_to_parent_frame()

self.open_new_window(switch_to=True)
# 打开新窗口。
# 其他命名方式: self.open_new_tab(switch_to=True)

self.switch_to_window(window, timeout=None)
# 切换到指定的窗口。
# 其他命名方式: self.switch_to_tab(tab, timeout=None)

self.switch_to_default_window()
# 切换到默认窗口。
# 其他命名方式: self.switch_to_default_tab()

self.switch_to_newest_window()
# 切换到最新的窗口。
# 其他命名方式: self.switch_to_newest_tab()

self.get_new_driver(
    browser=None,
    headless=None,
    locale_code=None,
    protocol=None,
    servername=None,
    port=None,
    proxy=None,
    proxy_bypass_list=None,
    proxy_pac_url=None,
    multi_proxy=None,
    agent=None,
    switch_to=True,
    cap_file=None,
    cap_string=None,
    recorder_ext=None,
    disable_js=None,
    disable_csp=None,
    enable_ws=None,
    enable_sync=None,
    use_auto_ext=None,
    undetectable=None,
    uc_cdp_events=None,
    uc_subprocess=None,
    log_cdp_events=None,
    no_sandbox=None,
    disable_gpu=None,
    headless2=None,
    incognito=None,
    guest_mode=None,
    dark_mode=None,
    devtools=None,
    remote_debug=None,
    enable_3d_apis=None,
    swiftshader=None,
    ad_block_on=None,
    host_resolver_rules=None,
    block_images=None,
    do_not_track=None,
    chromium_arg=None,
    firefox_arg=None,
    firefox_pref=None,
    user_data_dir=None,
    extension_zip=None,
    extension_dir=None,
    disable_features=None,
    binary_location=None,
    driver_version=None,
    page_load_strategy=None,
    use_wire=None,
    external_pdf=None,
    is_mobile=None,
    d_width=None,
    d_height=None,
    d_p_r=None,
)
# 获取新的 WebDriver 实例。

self.switch_to_driver(driver)
# 切换到指定的 WebDriver 实例。

self.switch_to_default_driver()
# 切换到默认的 WebDriver 实例。

self.save_screenshot(name, folder=None, selector=None, by="css selector")
# 保存当前页面的截图。

self.save_screenshot_to_logs(name=None, selector=None, by="css selector")
# 保存截图到日志。

self.save_data_to_logs(data, file_name=None)
# 保存数据到日志。

self.append_data_to_logs(data, file_name=None)
# 附加数据到日志。

self.save_page_source(name, folder=None)
# 保存页面源代码。

self.save_cookies(name="cookies.txt")
# 保存浏览器 cookies。

self.load_cookies(name="cookies.txt")
# 加载浏览器 cookies。

self.delete_all_cookies()
# 删除所有浏览器 cookies。
# 其他命名方式: self.clear_all_cookies()

self.delete_saved_cookies(name="cookies.txt")
# 删除保存的 cookies。

self.get_saved_cookies(name="cookies.txt")
# 获取保存的 cookies。

self.get_cookie(name)
# 获取指定名称的 cookie。

self.get_cookies()
# 获取所有 cookies。

self.add_cookie(cookie_dict)
# 添加单个 cookie。

self.add_cookies(cookies)
# 添加多个 cookies。

self.wait_for_ready_state_complete(timeout=None)
# 等待页面加载完成。

self.wait_for_angularjs(timeout=None)
# 等待 AngularJS 加载完成。

self.sleep(seconds)
# 暂停指定的秒数。
# 其他命名方式: self.wait(seconds)

self.install_addon(xpi_file)
# 安装浏览器插件。

self.activate_jquery()
# 激活 jQuery。

self.activate_demo_mode()
# 启用演示模式。

self.deactivate_demo_mode()
# 禁用演示模式。

self.activate_design_mode()
# 启用设计模式。

self.deactivate_design_mode()
# 禁用设计模式。

self.activate_recorder()
# 启用记录器。

self.save_recorded_actions()
# 保存记录的操作。

self.bring_active_window_to_front()
# 将活动窗口置于前台。

self.bring_to_front(selector, by="css selector")
# 将指定元素置于前台。

self.highlight_click(selector, by="css selector", loops=3, scroll=True, timeout=None)
# 高亮点击指定的元素。

self.highlight_type(selector, text, by="css selector", loops=3, scroll=True, timeout=None)
# 高亮输入文本到指定的元素。
# 其他命名方式: self.highlight_update_text(selector, text, by="css selector", loops=3, scroll=True, timeout=None)

self.highlight_if_visible(selector, by="css selector", loops=4, scroll=True)
# 如果元素可见则高亮。

self.highlight(selector, by="css selector", loops=4, scroll=True, timeout=None)
# 高亮指定的元素。

self.highlight_elements(selector, by="css selector", loops=4, scroll=True, limit=0)
# 高亮所有匹配的元素。

self.press_up_arrow(selector="html", times=1, by="css selector")
# 按上箭头键。

self.press_down_arrow(selector="html", times=1, by="css selector")
# 按下箭头键。

self.press_left_arrow(selector="html", times=1, by="css selector")
# 按左箭头键。

self.press_right_arrow(selector="html", times=1, by="css selector")
# 按右箭头键。

self.scroll_to(selector, by="css selector", timeout=None)
# 滚动到指定的元素。
# 其他命名方式: self.scroll_to_element(selector, by="css selector")

self.slow_scroll_to(selector, by="css selector", timeout=None)
# 缓慢滚动到指定的元素。
# 其他命名方式: self.slow_scroll_to_element(selector, by="css selector")

self.scroll_into_view(selector, by="css selector", timeout=None)
# 滚动到视图中的指定元素。

self.scroll_to_top()
# 滚动到页面顶部。

self.scroll_to_bottom()
# 滚动到页面底部。

self.click_xpath(xpath)
# 点击指定的 XPath 元素。

self.js_click(selector, by="css selector", all_matches=False, timeout=None, scroll=True)
# 使用 JavaScript 点击指定的元素。

self.js_click_if_present(selector, by="css selector", timeout=0)
# 如果元素存在则使用 JavaScript 点击。

self.js_click_if_visible(selector, by="css selector", timeout=0)
# 如果元素可见则使用 JavaScript 点击。

self.js_click_all(selector, by="css selector", timeout=None)
# 使用 JavaScript 点击所有匹配的元素。

self.jquery_click(selector, by="css selector", timeout=None)
# 使用 jQuery 点击指定的元素。

self.jquery_click_all(selector, by="css selector", timeout=None)
# 使用 jQuery 点击所有匹配的元素。

self.hide_element(selector, by="css selector")
# 隐藏指定的元素。

self.hide_elements(selector, by="css selector")
# 隐藏所有匹配的元素。

self.show_element(selector, by="css selector")
# 显示指定的元素。

self.show_elements(selector, by="css selector")
# 显示所有匹配的元素。

self.remove_element(selector, by="css selector")
# 移除指定的元素。

self.remove_elements(selector, by="css selector")
# 移除所有匹配的元素。

self.ad_block()
# 启用广告拦截。
# 其他命名方式: self.block_ads()

self.show_file_choosers()
# 显示文件选择器。

self.disable_beforeunload()
# 禁用 beforeunload 事件。

self.get_domain_url(url)
# 获取指定 URL 的域名。

self.get_active_element_css()
# 获取当前活动元素的 CSS。

self.get_beautiful_soup(source=None)
# 获取 BeautifulSoup 对象。

self.get_unique_links()
# 获取页面中的唯一链接。

self.get_link_status_code(link, allow_redirects=False, timeout=5, verify=False)
# 获取指定链接的状态码。

self.assert_link_status_code_is_not_404(link)
# 断言链接的状态码不是 404。

self.assert_no_404_errors(multithreaded=True, timeout=None)
# 断言页面中没有 404 错误。
# 其他命名方式: self.assert_no_broken_links(multithreaded=True, timeout=None)

self.print_unique_links_with_status_codes()
# 打印页面中唯一链接的状态码。

self.get_pdf_text(
    pdf, page=None, maxpages=None, password=None,
    codec='utf-8', wrap=False, nav=False, override=False, caching=True)
# 获取 PDF 文本。

self.assert_pdf_text(
    pdf, text, page=None, maxpages=None, password=None,
    codec='utf-8', wrap=True, nav=False, override=False, caching=True)
# 断言 PDF 文本。

self.create_folder(folder)
# 创建文件夹。

self.choose_file(selector, file_path, by="css selector", timeout=None)
# 选择文件上传。

self.save_element_as_image_file(selector, file_name, folder=None, overlay_text="")
# 保存元素为图像文件。

self.download_file(file_url, destination_folder=None)
# 下载文件。

self.save_file_as(file_url, new_file_name, destination_folder=None)
# 保存文件为指定名称。

self.save_data_as(data, file_name, destination_folder=None)
# 保存数据为文件。

self.append_data_to_file(data, file_name, destination_folder=None)
# 附加数据到文件。

self.get_file_data(file_name, folder=None)
# 获取文件数据。

self.get_downloads_folder()
# 获取下载文件夹路径。

self.get_browser_downloads_folder()
# 获取浏览器下载文件夹路径。

self.get_downloaded_files(regex=None, browser=False)
# 获取下载的文件。

self.get_path_of_downloaded_file(file, browser=False)
# 获取下载文件的路径。

self.get_data_from_downloaded_file(file, timeout=None, browser=False)
# 获取下载文件的数据。

self.is_downloaded_file_present(file, browser=False)
# 检查下载的文件是否存在。

self.is_downloaded_file_regex_present(regex, browser=False)
# 检查下载的文件是否匹配正则表达式。

self.delete_downloaded_file_if_present(file, browser=False)
# 如果存在则删除下载的文件。
# 其他命名方式: self.delete_downloaded_file(file, browser=False)

self.assert_downloaded_file(file, timeout=None, browser=False)
# 断言下载的文件存在。

self.assert_downloaded_file_regex(regex, timeout=None, browser=False)
# 断言下载的文件匹配正则表达式。

self.assert_data_in_downloaded_file(data, file, timeout=None, browser=False)
# 断言下载的文件包含指定数据。

self.assert_true(expr, msg=None)
# 断言表达式为真。

self.assert_false(expr, msg=None)
# 断言表达式为假。

self.assert_equal(first, second, msg=None)
# 断言两个值相等。

self.assert_not_equal(first, second, msg=None)
# 断言两个值不相等。

self.assert_in(first, second, msg=None)
# 断言第一个值在第二个值中。

self.assert_not_in(first, second, msg=None)
# 断言第一个值不在第二个值中。

self.assert_raises(*args, **kwargs)
# 断言引发指定的异常。

self.wait_for_attribute(selector, attribute, value=None, by="css selector", timeout=None)
# 等待元素的属性值。

self.assert_attribute(selector, attribute, value=None, by="css selector", timeout=None)
# 断言元素的属性值。

self.assert_title(title)
# 断言页面标题。

self.assert_title_contains(substring)
# 断言页面标题包含指定子字符串。

self.assert_url(url)
# 断言页面 URL。

self.assert_url_contains(substring)
# 断言页面 URL 包含指定子字符串。

self.assert_no_js_errors(exclude=[])
# 断言页面中没有 JavaScript 错误。

self.inspect_html()
# 检查页面 HTML。

self.is_valid_url(url)
# 检查 URL 是否有效。

self.is_online()
# 检查是否联网。

self.is_chromium()
# 检查是否是 Chromium 浏览器。

self.get_chrome_version()
# 获取 Chrome 浏览器版本。

self.get_chromium_version()
# 获取 Chromium 浏览器版本。

self.get_chromedriver_version()
# 获取 ChromeDriver 版本。

self.get_chromium_driver_version()
# 获取 ChromiumDriver 版本。

self.get_mfa_code(totp_key=None)
# 获取多因素认证代码。
# 其他命名方式: self.get_totp_code(totp_key=None), self.get_google_auth_password(totp_key=None), self.get_google_auth_code(totp_key=None)

self.enter_mfa_code(selector, totp_key=None, by="css selector", timeout=None)
# 输入多因素认证代码。
# 其他命名方式: self.enter_totp_code(selector, totp_key=None, by="css selector", timeout=None)

self.convert_css_to_xpath(css)
# 将 CSS 选择器转换为 XPath。

self.convert_xpath_to_css(xpath)
# 将 XPath 转换为 CSS 选择器。

self.convert_to_css_selector(selector, by)
# 转换为 CSS 选择器。

self.set_value(selector, text, by="css selector", timeout=None, scroll=True)
# 设置元素的值。

self.js_update_text(selector, text, by="css selector", timeout=None)
# 使用 JavaScript 更新元素的文本。
# 其他命名方式: self.js_type(selector, text, by="css selector", timeout=None), self.set_text(selector, text, by="css selector", timeout=None)

self.set_text_content(selector, text, by="css selector", timeout=None, scroll=False)
# 设置元素的文本内容。

self.jquery_update_text(selector, text, by="css selector", timeout=None)
# 使用 jQuery 更新元素的文本。
# 其他命名方式: self.jquery_type(selector, text, by="css selector", timeout=None)

self.get_value(selector, by="css selector", timeout=None)
# 获取元素的值。

self.set_time_limit(time_limit)
# 设置时间限制。

self.set_default_timeout(timeout)
# 设置默认超时时间。

self.reset_default_timeout()
# 重置默认超时时间。

self.fail(msg=None)
# 标记测试失败。

self.skip(reason="")
# 跳过测试。

self.start_recording_console_logs()
# 开始记录控制台日志。

self.console_log_string(string)
# 记录控制台日志字符串。

self.console_log_script(script)
# 记录控制台日志脚本。

self.get_recorded_console_logs()
# 获取记录的控制台日志。

self.set_local_storage_item(key, value)
# 设置本地存储项。

self.get_local_storage_item(key)
# 获取本地存储项。

self.remove_local_storage_item(key)
# 移除本地存储项。

self.clear_local_storage()
# 清除本地存储。
# 其他命名方式: delete_local_storage()

self.get_local_storage_keys()
# 获取本地存储的键。

self.get_local_storage_items()
# 获取本地存储的所有项。

self.set_session_storage_item(key, value)
# 设置会话存储项。

self.get_session_storage_item(key)
# 获取会话存储项。

self.remove_session_storage_item(key)
# 移除会话存储项。

self.clear_session_storage()
# 清除会话存储。
# 其他命名方式: delete_session_storage()

self.get_session_storage_keys()
# 获取会话存储的键。

self.get_session_storage_items()
# 获取会话存储的所有项。

self.set_wire_proxy(string)
# 设置代理,要求使用 "--wire"。

self.add_css_link(css_link)
# 添加 CSS 链接。

self.add_js_link(js_link)
# 添加 JavaScript 链接。

self.add_css_style(css_style)
# 添加 CSS 样式。

self.add_js_code_from_link(js_link)
# 从链接添加 JavaScript 代码。

self.add_js_code(js_code)
# 添加 JavaScript 代码。

self.add_meta_tag(http_equiv=None, content=None)
# 添加 meta 标签。

self.create_presentation(name=None, theme="default", transition="default")
# 创建演示文稿。

self.add_slide(
    content=None, image=None, code=None, iframe=None,
    content2=None, notes=None, transition=None, name=None)
# 添加幻灯片。

self.save_presentation(name=None, filename=None, show_notes=False, interval=0)
# 保存演示文稿。

self.begin_presentation(name=None, filename=None, show_notes=False, interval=0)
# 开始演示文稿。

self.create_pie_chart(
    chart_name=None, title=None, subtitle=None,
    data_name=None, unit=None, libs=True,
    labels=True, legend=True)
# 创建饼图。

self.create_bar_chart(
    chart_name=None, title=None, subtitle=None,
    data_name=None, unit=None, libs=True,
    labels=True, legend=True)
# 创建柱状图。

self.create_column_chart(
    chart_name=None, title=None, subtitle=None,
    data_name=None, unit=None, libs=True,
    labels=True, legend=True)
# 创建柱形图。

self.create_line_chart(
    chart_name=None, title=None, subtitle=None,
    data_name=None, unit=None, zero=False, libs=True,
    labels=True, legend=True)
# 创建折线图。

self.create_area_chart(
    chart_name=None, title=None, subtitle=None,
    data_name=None, unit=None, zero=False, libs=True,
    labels=True, legend=True)
# 创建面积图。

self.add_series_to_chart(data_name=None, chart_name=None)
# 添加数据系列到图表。

self.add_data_point(label, value, color=None, chart_name=None)
# 添加数据点到图表。

self.save_chart(chart_name=None, filename=None, folder=None)
# 保存图表。

self.display_chart(chart_name=None, filename=None, interval=0)
# 显示图表。

self.extract_chart(chart_name=None)
# 提取图表。

self.create_tour(name=None, theme=None)
# 创建导览。

self.create_shepherd_tour(name=None, theme=None)
# 创建 Shepherd 导览。

self.create_bootstrap_tour(name=None)
# 创建 Bootstrap 导览。

self.create_hopscotch_tour(name=None)
# 创建 Hopscotch 导览。

self.create_introjs_tour(name=None)
# 创建 Intro.js 导览。

self.set_introjs_colors(theme_color=None, hover_color=None)
# 设置 Intro.js 导览颜色。

self.add_tour_step(message, selector=None, name=None, title=None, theme=None, alignment=None)
# 添加导览步骤。

self.play_tour(name=None, interval=0)
# 播放导览。
# 其他命名方式: self.start_tour(name=None, interval=0)

self.export_tour(name=None, filename="my_tour.js", url=None)
# 导出导览。

self.activate_jquery_confirm()
# 启用 jQuery Confirm。

self.set_jqc_theme(theme, color=None, width=None)
# 设置 jQuery Confirm 主题。

self.reset_jqc_theme()
# 重置 jQuery Confirm 主题。

self.get_jqc_button_input(message, buttons, options=None)
# 获取 jQuery Confirm 按钮输入。

self.get_jqc_text_input(message, button=None, options=None)
# 获取 jQuery Confirm 文本输入。

self.get_jqc_form_inputs(message, buttons, options=None)
# 获取 jQuery Confirm 表单输入。

self.activate_messenger()
# 启用 Messenger。

self.post_message(message, duration=None, pause=True, style="info")
# 发送信息。

self.post_message_and_highlight(message, selector, by="css selector")
# 发送信息并高亮元素。

self.post_success_message(message, duration=None, pause=True)
# 发送成功信息。

self.post_error_message(message, duration=None, pause=True)
# 发送错误信息。

self.set_messenger_theme(theme="default", location="default", max_messages="default")
# 设置 Messenger 主题。

self.generate_referral(start_page, destination_page, selector=None)
# 生成推荐。

self.generate_traffic(start_page, destination_page, loops=1, selector=None)
# 生成流量。

self.generate_referral_chain(pages)
# 生成推荐链。

self.generate_traffic_chain(pages, loops=1)
# 生成流量链。

self.get_element(selector, by="css selector", timeout=None)
# 获取指定的元素。
# 其他命名方式: self.wait_for_selector(selector, by="css selector", timeout=None), self.locator(selector, by="css selector", timeout=None), self.wait_for_element_present(selector, by="css selector", timeout=None)

self.wait_for_query_selector(selector, by="css selector", timeout=None)
# 等待指定的查询选择器。

self.assert_element_present(selector, by="css selector", timeout=None)
# 断言元素存在。

self.assert_elements_present(*args, **kwargs)
# 断言多个元素存在。

self.find_element(selector, by="css selector", timeout=None)
# 查找指定的元素。
# 其他命名方式: self.wait_for_element(selector, by="css selector", timeout=None), self.wait_for_element_visible(selector, by="css selector", timeout=None)

self.assert_element(selector, by="css selector", timeout=None)
# 断言指定的元素。
# 其他命名方式: self.assert_element_visible(selector, by="css selector", timeout=None)

self.assert_elements(*args, **kwargs)
# 断言多个元素。
# 其他命名方式: self.assert_elements_visible(*args, **kwargs)

self.find_text(text, selector="html", by="css selector", timeout=None)
# 查找指定文本。
# 其他命名方式: self.wait_for_text(text, selector="html", by="css selector", timeout=None), self.wait_for_text_visible(text, selector="html", by="css selector", timeout=None)

self.find_exact_text(text, selector="html", by="css selector", timeout=None)
# 查找精确文本。
# 其他命名方式: self.wait_for_exact_text(text, selector="html", by="css selector", timeout=None), self.wait_for_exact_text_visible(text, selector="html", by="css selector", timeout=None)

self.find_non_empty_text(selector="html", by="css selector", timeout=None)
# 查找非空文本。
# 其他命名方式: self.wait_for_non_empty_text(selector="html", by="css selector", timeout=None), self.wait_for_non_empty_text_visible(selector="html", by="css selector", timeout=None)

self.assert_text(text, selector="html", by="css selector", timeout=None)
# 断言文本。
# 其他命名方式: self.assert_text_visible(text, selector="html", by="css selector", timeout=None)

self.assert_exact_text(text, selector="html", by="css selector", timeout=None)
# 断言精确文本。

self.wait_for_link_text_present(link_text, timeout=None)
# 等待链接文本出现。

self.wait_for_partial_link_text_present(link_text, timeout=None)
# 等待部分链接文本出现。

self.find_link_text(link_text, timeout=None)
# 查找链接文本。
# 其他命名方式: self.wait_for_link_text(link_text, timeout=None), self.wait_for_link_text_visible(link_text, timeout=None)

self.assert_link_text(link_text, timeout=None)
# 断言链接文本。
# 其他命名方式: self.assert_link(link_text, timeout=None)

self.find_partial_link_text(partial_link_text, timeout=None)
# 查找部分链接文本。
# 其他命名方式: self.wait_for_partial_link_text(partial_link_text, timeout=None)

self.assert_partial_link_text(partial_link_text, timeout=None)
# 断言部分链接文本。

self.wait_for_element_absent(selector, by="css selector", timeout=None)
# 等待元素消失。
# 其他命名方式: self.wait_for_element_not_present(selector, by="css selector", timeout=None)

self.assert_element_absent(selector, by="css selector", timeout=None)
# 断言元素消失。
# 其他命名方式: self.assert_element_not_present(selector, by="css selector", timeout=None)

self.wait_for_element_clickable(selector, by="css selector", timeout=None)
# 等待元素可点击。

self.wait_for_element_not_visible(selector, by="css selector", timeout=None)
# 等待元素不可见。

self.assert_element_not_visible(selector, by="css selector", timeout=None)
# 断言元素不可见。

self.wait_for_text_not_visible(text, selector="html", by="css selector", timeout=None)
# 等待文本不可见。

self.wait_for_exact_text_not_visible(text, selector="html", by="css selector", timeout=None)
# 等待精确文本不可见。

self.assert_text_not_visible(text, selector="html", by="css selector", timeout=None)
# 断言文本不可见。

self.assert_exact_text_not_visible(text, selector="html", by="css selector", timeout=None)
# 断言精确文本不可见。

self.assert_non_empty_text(selector="html", by="css selector", timeout=None)
# 断言非空文本。

self.wait_for_attribute_not_present(
    selector, attribute, value=None, by="css selector", timeout=None)
# 等待属性不存在。

self.assert_attribute_not_present(
    selector, attribute, value=None, by="css selector", timeout=None)
# 断言属性不存在。

self.accept_alert(timeout=None)
# 接受警报。
# 其他命名方式: self.wait_for_and_accept_alert(timeout=None)

self.dismiss_alert(timeout=None)
# 解散警报。
# 其他命名方式: self.wait_for_and_dismiss_alert(timeout=None)

self.switch_to_alert(timeout=None)
# 切换到警报。
# 其他命名方式: self.wait_for_and_switch_to_alert(timeout=None)

self.quit_extra_driver(driver=None)
# 退出额外的 WebDriver 实例。

self.check_window(name="default", level=0, baseline=False, check_domain=True, full_diff=False)
# 检查窗口状态。

self.deferred_assert_element(selector, by="css selector", timeout=None, fs=False)
# 延迟断言元素。
# 其他命名方式: self.delayed_assert_element(selector, by="css selector", timeout=None, fs=False)

self.deferred_assert_element_present(selector, by="css selector", timeout=None, fs=False)
# 延迟断言元素存在。
# 其他命名方式: self.delayed_assert_element_present(selector, by="css selector", timeout=None, fs=False)

self.deferred_assert_text(text, selector="html", by="css selector", timeout=None, fs=False)
# 延迟断言文本。
# 其他命名方式: self.delayed_assert_text(text, selector="html", by="css selector", timeout=None, fs=False)

self.deferred_assert_exact_text(
    text, selector="html", by="css selector", timeout=None, fs=False)
# 延迟断言精确文本。
# 其他命名方式: self.delayed_assert_exact_text(text, selector="html", by="css selector", timeout=None, fs=False)

self.deferred_assert_non_empty_text(
    selector="html", by="css selector", timeout=None, fs=False)
# 延迟断言非空文本。
# 其他命名方式: self.delayed_assert_non_empty_text(selector="html", by="css selector", timeout=None, fs=False)

self.deferred_check_window(
    name="default", level=0, baseline=False, check_domain=True, full_diff=False, fs=False)
# 延迟检查窗口状态。
# 其他命名方式: self.delayed_check_window(name="default", level=0, baseline=False, check_domain=True, full_diff=False, fs=False)

self.process_deferred_asserts(print_only=False)
# 处理延迟断言。
# 其他命名方式: self.process_delayed_asserts(print_only=False)

self.fail(msg=None)
# 标记测试失败。

self._check_browser()
# 检查浏览器状态。

self._print(TEXT)
# 打印文本。

使用示例:

python 复制代码
driver.default_get(url)
# 使用默认方式获取 URL。

driver.open(url)
# 打开指定的 URL。

driver.click(selector)
# 点击指定的元素。

driver.click_link(link_text)
# 点击指定的链接文本。

driver.click_if_visible(selector)
# 如果元素可见则点击。

driver.click_active_element()
# 点击当前活动元素。

driver.send_keys(selector, text)
# 向指定的元素发送键盘输入。

driver.press_keys(selector, text)
# 向指定的元素发送键盘按键。

driver.type(selector, text)
# 在指定的元素中输入文本。

driver.submit(selector)
# 提交指定的表单。

driver.assert_element(selector)
# 断言指定的元素。

driver.assert_element_present(selector)
# 断言元素存在。

driver.assert_element_not_visible(selector)
# 断言元素不可见。

driver.assert_text(text, selector)
# 断言文本。

driver.assert_exact_text(text, selector)
# 断言精确文本。

driver.find_element(selector)
# 查找指定的元素。

driver.find_elements(selector)
# 查找所有匹配的元素。

driver.wait_for_element(selector)
# 等待指定的元素。

driver.wait_for_element_visible(selector)
# 等待元素可见。

driver.wait_for_element_present(selector)
# 等待元素存在。

driver.wait_for_selector(selector)
# 等待选择器。

driver.wait_for_text(text, selector)
# 等待文本。

driver.wait_for_exact_text(text, selector)
# 等待精确文本。

driver.wait_for_and_accept_alert()
# 等待并接受警报。

driver.wait_for_and_dismiss_alert()
# 等待并解散警报。

driver.is_element_present(selector)
# 检查元素是否存在。

driver.is_element_visible(selector)
# 检查元素是否可见。

driver.is_text_visible(text, selector)
# 检查文本是否可见。

driver.is_exact_text_visible(text, selector)
# 检查精确文本是否可见。

driver.is_attribute_present(selector, attribute)
# 检查属性是否存在。

driver.get_text(selector)
# 获取元素的文本内容。

driver.js_click(selector)
# 使用 JavaScript 点击元素。

driver.get_active_element_css()
# 获取当前活动元素的 CSS。

driver.get_locale_code()
# 获取语言区域代码。

driver.get_origin()
# 获取原始 URL。

driver.get_user_agent()
# 获取用户代理字符串。

driver.highlight(selector)
# 高亮指定的元素。

driver.highlight_click(selector)
# 高亮并点击指定的元素。

driver.highlight_if_visible(selector)
# 如果元素可见则高亮。

driver.sleep(seconds)
# 暂停指定的秒数。

driver.locator(selector)
# 获取选择器。

driver.get_attribute(selector, attribute)
# 获取元素的属性值。

driver.get_page_source()
# 获取页面源代码。

driver.get_title()
# 获取页面标题。

driver.switch_to_frame(frame="iframe")
# 切换到指定的 iframe。

driver.get(url)
# 获取指定的 URL。

driver.uc_open(url)
# 在 undetected-chromedriver 模式下打开 URL。

driver.uc_open_with_tab(url)
# 在新标签页中打开 URL。

driver.uc_open_with_reconnect(url, reconnect_time=None)
# 打开 URL 并重新连接。

driver.uc_open_with_disconnect(url, timeout=None)
# 打开 URL 并断开连接。

driver.reconnect(timeout)
# 重新连接。

driver.disconnect()
# 断开连接。

driver.connect()
# 连接。

driver.uc_click(selector)
# 使用 undetected-chromedriver 点击元素。

driver.uc_gui_press_key(key)
# 使用 PyAutoGUI 按下键盘键。

driver.uc_gui_press_keys(keys)
# 使用 PyAutoGUI 按下键盘键列表。

driver.uc_gui_write(text)
# 使用 PyAutoGUI 输入文本。

driver.uc_gui_click_x_y(x, y, timeframe=0.25)
# 使用 PyAutoGUI 点击屏幕上的指定位置。

driver.uc_gui_click_cf(frame="iframe", retry=False, blind=False)
# 使用 PyAutoGUI 点击 CF Turnstile。

driver.uc_gui_handle_cf(frame="iframe")
# 使用 PyAutoGUI 处理 CF Turnstile。

driver.uc_switch_to_frame(frame="iframe")
# 使用 undetected-chromedriver 切换到指定的 iframe。

最后的话

我在写一个基于selenium和seleniumbase的浏览器控制的库,以便在需要使用selenium时候能够快速开始,而不需要每次都重复造轮子。欢迎提PR。

虽然seleniumbase实际上是一个已经封装过了的库,但其功能非常强大,以至于可能我并不需要这么多功能(我是在找隐藏指纹时候找到这个的,因为原始的uc库忽然用不了了)。更多的,我可能需要的是多个工具或者兼容性的适配。所以,有必要另外再自己写一个。

GitHub - songxf1024/selenium_browser: A generic library to control the browser based on selenium.A generic library to control the browser based on selenium. - songxf1024/selenium_browserhttps://github.com/songxf1024/selenium_browser

相关推荐
cmgdxrz1 小时前
Postman接口测试02|执行接口测试、全局变量和环境变量、接口关联、动态参数、断言
测试工具·postman
测试杂货铺2 小时前
UI自动化测试实战实例
自动化测试·软件测试·python·selenium·测试工具·测试用例·pytest
m0_748241122 小时前
Selenium之Web元素定位
前端·selenium·测试工具
柠檬不萌只是酸i5 小时前
day19——web自动化测试(1)
selenium·测试工具
<e^πi+1=0>6 小时前
Postman常用测试脚本
测试工具·postman
互联网杂货铺7 小时前
单元测试/系统测试/集成测试知识总结
自动化测试·软件测试·测试工具·职场和发展·单元测试·测试用例·集成测试
梦游钓鱼7 小时前
Peach模糊测试工具
测试工具
FL162386312913 小时前
python版本的Selenium的下载及chrome环境搭建和简单使用
chrome·python·selenium
一条测试老狗13 小时前
【可视化开源性能压测工具】小巧而强大的oha
测试工具·性能压测·oha