Python爬虫:设置随机 User-Agent

Python爬虫:设置随机 User-Agent

在Python中编写爬虫时,为了模拟真实用户的行为并防止被服务器识别为爬虫,通常需要设置随机的User-Agent。你可以使用fake-useragent库来实现这一功能。首先,你需要安装fake-useragent库:

复制代码
pip install fake-useragent

然后,你可以按照以下示例代码来设置随机User-Agent:

复制代码
import requests
from fake_useragent import UserAgent
def get_random_user_agent():
    ua = UserAgent()
    return ua.random
def crawl_url(url):
    headers = {'User-Agent': get_random_user_agent()}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Failed to fetch URL:", response.status_code)
if __name__ == "__main__":
    url = "https://example.com"  # 要爬取的网址
    html_content = crawl_url(url)
    print(html_content)  # 输出网页内容

编辑

这个示例中,get_random_user_agent() 函数使用fake-useragent库来获取一个随机的User-Agent字符串,并将其用于构造请求头。然后,crawl_url() 函数发送带有随机User-Agent的HTTP请求,并返回网页内容。

记得在使用爬虫时,要尊重网站的robots.txt文件,以避免访问被禁止的页面。同时,避免发送过于频繁的请求,以免对服务器造成负担。

相关推荐
hoiii1875 分钟前
基于MATLAB/Simulink使用M函数实现无刷直流电机(BLDCM)双闭环控制系统
开发语言·matlab
superman超哥23 分钟前
Rust 复制语义(Copy Trait)与移动语义的区别:类型系统的精确控制
开发语言·后端·rust·编程语言·移动语义·rust复制语义·copy trait
威风的虫1 小时前
RAG 系统的经典工作流程
人工智能·python·rag
棒棒的皮皮1 小时前
【深度学习】YOLO-Python基础认知与算法演进
python·深度学习·yolo·计算机视觉
aiguangyuan1 小时前
机器学习入门
人工智能·python·机器学习
chao1898441 小时前
基于C#实现Modbus通信及CRC校验
java·开发语言·c#
hxjhnct2 小时前
JavaScript Promise 的常用API
开发语言·前端·javascript
xiaowu0802 小时前
C# 嵌入资源加载 + 外部配置文件的兜底配置
开发语言·c#
毕设源码-邱学长2 小时前
【开题答辩全过程】以 基于JSP论坛系统设计与实现为例,包含答辩的问题和答案
java·开发语言
Psycho_MrZhang2 小时前
高并发服务设计思路
python