Python多线程爬虫

先简单说说多线程是啥。线程是程序执行的最小单元，一个进程里可以跑多个线程，共享内存资源。在爬虫场景下，比如你要抓取100个网页，单线程得顺序请求，每个等1秒的话总共得100秒。但如果开5个线程，每个线程处理20个页面，理论上时间能缩短到20秒左右------因为网络I/O等待时，其他线程能接着干活。Python的threading模块让创建线程变得很简单，用Thread类就能定义新线程，指定目标函数就行。

多线程爬虫的优势很明显：提升吞吐量、减少闲置时间。比如抓取新闻网站时，页面结构类似，用多线程并发请求可以快速覆盖大量链接。不过要注意，线程不是越多越好。太多线程会竞争CPU资源，反而可能拖慢速度，还容易触发目标网站的反爬机制。一般建议根据网络延迟和服务器负载来调整线程数，我通常从5-10个开始测试。

来看个具体例子。我们用requests库发HTTP请求，threading管理线程，再加个queue来分配任务，避免重复爬取。下面这段代码实现了一个基础的多线程爬虫，爬取一组URL并保存内容片段：

这段代码里，我们用了线程安全的Queue来管理URL，每个线程循环取URL并抓取。daemon线程设为True能让主线程退出时自动结束子线程。实际跑起来，你会发现比单线程快不少------我测试时，50个页面用5个线程能省下一大半时间。

但多线程爬虫也有坑。首当其冲是Python的GIL（全局解释器锁），它限制了同一时刻只有一个线程执行Python代码。不过爬虫主要是网络I/O操作，线程在等待响应时会释放GIL，所以影响不大。如果是处理下载的数据（比如解析HTML），GIL可能成瓶颈，那时可以考虑多进程。另外，线程间共享数据要小心竞争条件，比如多个线程写同一个文件可能乱套。建议用锁（Lock）或像上面例子那样用队列隔离任务。

还有个常见问题是资源管理。线程数太多会耗光系统socket或内存，最好设个上限。另外，爬虫伦理不能忘------别把人家网站搞崩了。加个随机延时、用User-Agent轮询，能减少被封风险。我习惯在fetch_page里加个time.sleep(0.5)模拟人类操作，避免请求过于密集。

和多进程、异步方案比，多线程的优势是开发简单、资源开销小。multiprocessing模块能绕过GIL，但进程启动慢；asyncio适合高并发，但得用async/await重构代码。对于大多数中小型爬虫，多线程够用了。如果任务量超大（比如爬百万页面），再考虑分布式爬虫框架。

总之，Python多线程爬虫是个性价比高的提速方案。核心是合理规划线程数、用好队列管理任务，再注意下异常处理和反爬策略。动手试试调参，你会发现爬虫效率肉眼可见地提升。如果有细节问题，欢迎交流讨论！