python bs4 selenium 查找a href=javascript:()；的实际点击事件和url

在使用 BeautifulSoup 和 Selenium 时，处理 href="javascript:;" 的链接需要一些额外的步骤，因为这些链接不直接指向一个 URL，而是通过 JavaScript 代码来执行某些操作。这可能包括导航到另一个页面、触发模态窗口、显示/隐藏内容等。

以下是如何使用 Selenium 来查找和处理这些链接的步骤：

启动 WebDriver：首先，你需要启动一个 WebDriver（如 ChromeDriver）。
加载网页：使用 WebDriver 加载你想要抓取的网页。
查找链接 ：使用 Selenium 的方法查找所有 href="javascript:;" 的链接。
获取和执行点击事件：虽然 Selenium 不直接提供获取 JavaScript 事件处理程序的方法，但你可以模拟点击这些链接，并观察网页的变化。这通常涉及到监听网络请求或使用浏览器的开发者工具来调试。
获取 URL：如果点击后页面导航到了新的 URL，你可以通过 WebDriver 的当前 URL 属性来获取新页面的 URL。

以下是一个示例代码，演示了如何使用 Selenium 来查找和处理这些链接：

python 复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 设置 Chrome 选项
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--window-size=1920x1080")

# 启动 ChromeDriver
service = Service('/path/to/chromedriver')  # 替换为你的 chromedriver 路径
driver = webdriver.Chrome(service=service, options=chrome_options)

try:
    # 加载网页
    driver.get('https://example.com')  # 替换为你要抓取的网页 URL

    # 等待页面加载完成
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "body")))

    # 查找所有 href="javascript:;" 的链接
    links = driver.find_elements(By.CSS_SELECTOR, 'a[href="javascript:;"]')

    for link in links:
        print(f"Found link with text: {link.text}")
        
        # 执行点击事件前可以记录当前 URL
        current_url = driver.current_url
        print(f"Current URL before click: {current_url}")

        # 模拟点击链接
        link.click()

        # 等待页面可能的导航或加载
        time.sleep(2)  # 这里使用 sleep 作为简单的等待，实际中应该使用更智能的等待条件

        # 获取点击后的 URL
        new_url = driver.current_url
        print(f"URL after click: {new_url}")

        # 如果需要，可以在这里添加更多的逻辑来处理点击后的页面内容

        # 重置到初始页面（如果需要）
        driver.refresh()  # 或者使用 driver.get(current_url) 来重新加载原始页面

finally:
    # 关闭 WebDriver
    driver.quit()

注意：

上述代码中的 time.sleep(2) 是一个简单的等待，用于等待页面可能的导航或加载。在实际应用中，你应该使用更智能的等待条件，如 WebDriverWait。
如果点击链接后没有页面导航，而是触发了模态窗口或动态内容更新，你可能需要使用其他技术（如检查 DOM 变化、监听网络请求等）来捕获这些变化。
确保你有正确的 chromedriver 路径，并且它与你的 Chrome 浏览器版本兼容。