Python爬虫:设置随机 User-Agent

Python爬虫:设置随机 User-Agent

在Python中编写爬虫时,为了模拟真实用户的行为并防止被服务器识别为爬虫,通常需要设置随机的User-Agent。你可以使用fake-useragent库来实现这一功能。首先,你需要安装fake-useragent库:

复制代码
pip install fake-useragent

然后,你可以按照以下示例代码来设置随机User-Agent:

复制代码
import requests
from fake_useragent import UserAgent
def get_random_user_agent():
    ua = UserAgent()
    return ua.random
def crawl_url(url):
    headers = {'User-Agent': get_random_user_agent()}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Failed to fetch URL:", response.status_code)
if __name__ == "__main__":
    url = "https://example.com"  # 要爬取的网址
    html_content = crawl_url(url)
    print(html_content)  # 输出网页内容

编辑

这个示例中,get_random_user_agent() 函数使用fake-useragent库来获取一个随机的User-Agent字符串,并将其用于构造请求头。然后,crawl_url() 函数发送带有随机User-Agent的HTTP请求,并返回网页内容。

记得在使用爬虫时,要尊重网站的robots.txt文件,以避免访问被禁止的页面。同时,避免发送过于频繁的请求,以免对服务器造成负担。

相关推荐
Bruce_kaizy4 分钟前
C++树形数据结构————树状数组、线段树中“逆序对”的问题
开发语言·数据结构·c++
❥ღ Komo·5 分钟前
K8s蓝绿发布实战:零停机部署秘籍
java·开发语言
梨落秋霜7 分钟前
Python入门篇【函数】
开发语言·python
电饭叔12 分钟前
利用类来计算点是不是在园内《python语言程序设计》2018版--第8章18题第3部分
开发语言·python
零小陈上(shouhou6668889)18 分钟前
YOLOv8+PyQt5玉米病害检测系统(yolov8模型,从图像、视频和摄像头三种路径识别检测)
python·qt·yolo
540_54025 分钟前
ADVANCE Day23
人工智能·python·机器学习
一代明君Kevin学长35 分钟前
快速自定义一个带进度监控的文件资源类
java·前端·后端·python·文件上传·文件服务·文件流
martian6651 小时前
深入解析C++驱动开发实战:优化高效稳定的驱动应用
开发语言·c++·驱动开发
HappRobot1 小时前
python类和对象
开发语言·python
鸡吃丸子1 小时前
React Native入门详解
开发语言·前端·javascript·react native·react.js