Python爬虫:设置随机 User-Agent

Python爬虫:设置随机 User-Agent

在Python中编写爬虫时,为了模拟真实用户的行为并防止被服务器识别为爬虫,通常需要设置随机的User-Agent。你可以使用fake-useragent库来实现这一功能。首先,你需要安装fake-useragent库:

复制代码
pip install fake-useragent

然后,你可以按照以下示例代码来设置随机User-Agent:

复制代码
import requests
from fake_useragent import UserAgent
def get_random_user_agent():
    ua = UserAgent()
    return ua.random
def crawl_url(url):
    headers = {'User-Agent': get_random_user_agent()}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Failed to fetch URL:", response.status_code)
if __name__ == "__main__":
    url = "https://example.com"  # 要爬取的网址
    html_content = crawl_url(url)
    print(html_content)  # 输出网页内容

编辑

这个示例中,get_random_user_agent() 函数使用fake-useragent库来获取一个随机的User-Agent字符串,并将其用于构造请求头。然后,crawl_url() 函数发送带有随机User-Agent的HTTP请求,并返回网页内容。

记得在使用爬虫时,要尊重网站的robots.txt文件,以避免访问被禁止的页面。同时,避免发送过于频繁的请求,以免对服务器造成负担。

相关推荐
深蓝电商API15 分钟前
京东API批量操作优化:单次1000条限制的突破方案
爬虫·接口·api·京东api
REDcker27 分钟前
浏览器端Web程序性能分析与优化实战 DevTools指标与工程清单
开发语言·前端·javascript·vue·ecmascript·php·js
风之所往_1 小时前
Python 3.0 新特性全面总结
python
2401_882273721 小时前
如何在 CSS 中正确加载本地 JPG 背景图片
jvm·数据库·python
Lucas_coding2 小时前
【Claude Code Router】 Claude Code 兼容 OpenAI 格式 API, Claude code 接入本地部署模型
人工智能·python
测试员周周2 小时前
【AI测试系统】第5篇:从 Archon 看 AI 工程化落地:为什么"确定性编排+AI 弹性智能"是终局?
人工智能·python·测试
我命由我123452 小时前
Kotlin 开发 - lateinit 关键字
android·java·开发语言·kotlin·android studio·android-studio·android runtime
Halo_tjn2 小时前
Java Set集合相关知识点
java·开发语言·算法
许彰午2 小时前
我手写了一个 Java 内存数据库(二):B+ 树的插入与分裂
java·开发语言·面试
大飞记Python3 小时前
【2026更新】Python基础学习指南(AI版)——04数据类型
开发语言·人工智能·python