Python爬虫:设置随机 User-Agent

Python爬虫:设置随机 User-Agent

在Python中编写爬虫时,为了模拟真实用户的行为并防止被服务器识别为爬虫,通常需要设置随机的User-Agent。你可以使用fake-useragent库来实现这一功能。首先,你需要安装fake-useragent库:

复制代码
pip install fake-useragent

然后,你可以按照以下示例代码来设置随机User-Agent:

复制代码
import requests
from fake_useragent import UserAgent
def get_random_user_agent():
    ua = UserAgent()
    return ua.random
def crawl_url(url):
    headers = {'User-Agent': get_random_user_agent()}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Failed to fetch URL:", response.status_code)
if __name__ == "__main__":
    url = "https://example.com"  # 要爬取的网址
    html_content = crawl_url(url)
    print(html_content)  # 输出网页内容

编辑

这个示例中,get_random_user_agent() 函数使用fake-useragent库来获取一个随机的User-Agent字符串,并将其用于构造请求头。然后,crawl_url() 函数发送带有随机User-Agent的HTTP请求,并返回网页内容。

记得在使用爬虫时,要尊重网站的robots.txt文件,以避免访问被禁止的页面。同时,避免发送过于频繁的请求,以免对服务器造成负担。

相关推荐
sjmaysee4 小时前
Java框架SpringBoot(一)
java·开发语言·spring boot
寒秋花开曾相惜4 小时前
(学习笔记)3.8 指针运算(3.8.3 嵌套的数组& 3.8.4 定长数组)
java·开发语言·笔记·学习·算法
想唱rap4 小时前
Linux线程
java·linux·运维·服务器·开发语言·mysql
Tony Bai5 小时前
Rust 看了流泪,AI 看了沉默:扒开 Go 泛型最让你抓狂的“残疾”类型推断
开发语言·人工智能·后端·golang·rust
njidf5 小时前
C++与Qt图形开发
开发语言·c++·算法
qwehjk20085 小时前
代码动态生成技术
开发语言·c++·算法
是翔仔呐5 小时前
第11章 显示外设驱动:I2C协议OLED屏、SPI协议LCD屏字符/图片/中文显示
c语言·开发语言·stm32·单片机·嵌入式硬件·学习·gitee
jason成都5 小时前
IoT 设备监控系统实战:基于 EMQX 的 MQTT 连接监控与数据格式指纹识别
开发语言·python
铭毅天下5 小时前
EasySearch Rules 规则语法速查手册
开发语言·前端·javascript·ecmascript
YMWM_5 小时前
print(f“{s!r}“)解释
开发语言·r语言