用 Playwright + 容器化做分布式浏览器栈：调度、会话管理与资源回收

如果你做过中大型爬虫项目，就一定知道浏览器自动化这一环节有多"吃资源"。一台机器跑几个浏览器实例还好，一旦规模上百、上千，就成了内存地狱。Playwright 虽然在单机场景下表现优异，但要把它放到分布式架构中稳定运行，就得动点"脑筋"。

这篇文章会带你一步步搭建一个"分布式浏览器栈"------用 Playwright 跑在容器中，配合代理、调度和会话管理，实现对多新闻网站（如 ZAKER 与第一财经）的高并发抓取。

一、背景介绍

随着各大网站反爬手段越来越复杂，传统的 requests + BeautifulSoup 模式已经不够用了。越来越多的数据都藏在前端异步加载的 JavaScript 里，只能靠"浏览器级"工具去渲染和执行。

Playwright 就是为这种任务而生的。但 Playwright 自带的问题也不容忽视：

启动慢：每个浏览器实例都要初始化环境；
资源重：内存、CPU、文件句柄消耗惊人；
管理复杂：多个实例的调度、登录会话的维护都得自己搞。

于是，"容器化分布式浏览器栈"成了救命稻草。通过 Docker 把浏览器实例包装成轻量级容器，我们就能像调度服务一样去调度它们，还能方便地进行资源回收。

二、环境准备

在开始之前，你需要准备以下环境：

基础环境
- Python 3.10+
- Docker & Docker Compose
- Playwright (支持 Chromium)
安装依赖

bash 复制代码

pip install playwright aiohttp asyncio
playwright install chromium

准备代理配置（爬虫代理示例）
爬虫代理的配置一般包含以下内容（示例）：

plain 复制代码

代理域名：proxy.16yun.cn
端口：3100
用户名：your_username
密码：your_password

我们会在代码中直接使用它。

三、核心步骤

Step 1：容器化浏览器服务

创建一个简单的 Dockerfile，让每个容器都能独立运行一个 Playwright 实例。

dockerfile 复制代码

FROM mcr.microsoft.com/playwright/python:v1.47.2-jammy
WORKDIR /app
COPY . /app
RUN pip install -r requirements.txt
CMD ["python", "browser_worker.py"]

每个容器就是一个"浏览器节点"，主控端通过调度系统（比如 Celery 或自定义 API）来派发任务。

Step 2：调度与会话管理

为了防止频繁登录或重复加载 cookie，我们为每个浏览器实例维护独立的"会话池"。

思路如下：

调度器分配任务时，会分配一个浏览器容器 + 会话 ID；
该会话 ID 对应一个用户上下文（含 cookie、localStorage）；
定期清理无用会话，释放资源。

Step 3：集成代理并采集新闻网站

在这里，我们用 Playwright + 代理连接访问两个新闻网站（ZAKER 和第一财经），并抓取最新的新闻标题与链接。

python 复制代码

import asyncio
from playwright.async_api import async_playwright

# 代理配置（参考亿牛云 www.16yun.cn）
PROXY_HOST = "proxy.16yun.cn"
PROXY_PORT = "3100"
PROXY_USER = "your_username"
PROXY_PASS = "your_password"

# 要采集的目标网站
TARGETS = [
    "http://www.myzaker.com",
    "https://www.yicai.com"
]

async def fetch_news(url):
    """抓取新闻标题和链接"""
    proxy_str = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"

    async with async_playwright() as p:
        browser = await p.chromium.launch(
            headless=True,
            proxy={"server": proxy_str}
        )
        context = await browser.new_context()
        page = await context.new_page()
        await page.goto(url, timeout=60000)

        # 这里根据网站结构提取新闻标题与链接
        if "myzaker" in url:
            articles = await page.query_selector_all("a[href*='/article']")
        else:
            articles = await page.query_selector_all("a[href*='news']")

        for a in articles[:10]:
            href = await a.get_attribute("href")
            title = await a.inner_text()
            print(f"[{url}] {title} -> {href}")

        await browser.close()

async def main():
    await asyncio.gather(*(fetch_news(u) for u in TARGETS))

if __name__ == "__main__":
    asyncio.run(main())

这段代码会使用 Playwright 打开两个新闻网站，分别提取部分新闻标题和链接，并通过爬虫代理隐藏真实 IP。

四、常见错误与坑

代理认证失败
- 检查用户名、密码、端口是否正确；
- 有时 Playwright 对代理格式比较挑剔，推荐显式使用 http://user:pass@host:port。
页面超时
- 部分网站加载较慢，可适当增加 timeout 参数；
- 或使用 await page.wait_for_selector() 确认元素加载完成。
容器资源占用过高
- 使用 --shm-size=1gb 启动容器；
- 定期销毁闲置容器，保持活跃实例池在 20~30 个左右。

五、总结与提升

通过这次实践，我们完成了一个可扩展的"分布式浏览器采集框架"：

Playwright 提供浏览器渲染能力；
Docker 保证实例隔离与资源回收；
爬虫代理解决 IP 限制问题。

容器化 Playwright，就像给浏览器加上"齿轮和轮轴"------从单机小工具变成一台稳定、高效的分布式采集机器。