爬虫第4课:get请求

注意下面这些代码

  • 这个脚本直接打印出网页的HTML内容,而不是解析后的内容。如果你想要解析网页内容(如提取某些特定信息),你可能需要使用如BeautifulSoup之类的库。
  • 这个脚本没有进行错误处理,例如网络错误或请求超时等。在实际应用中,你可能需要添加适当的错误处理机制。
  • 使用 fake_useragent 生成随机用户代理有助于避免某些网站的防爬虫机制,但这并不能保证一定能成功绕过所有的防爬虫机制。某些网站可能会采用更复杂的策略来检测和阻止爬虫。
复制代码
# Pythonit教程网(blog.pythonit.cn)
# Python全栈视频课件获取:www.dqu.cc
# 加速高防cdn:woaiyundun.cn
复制代码
# coding:utf-8
# 时间:2024/3/16 16:16
# Pythonit教程网(blog.pythonit.cn)
# Python全栈视频课件获取:www.dqu.cc
# 加速高防cdn:woaiyundun.cn
from urllib.request import urlopen,Request
from fake_useragent import UserAgent
from urllib.parse import quote
search = input("请输入搜索的内容:")
url = f"https://blog.pythonit.cn/index.php/search/{quote(search)}"
ua = UserAgent()
headers = {
    'User-Agent': ua.chrome
}
re = Request(url,headers=headers)
reopen = urlopen(re)
print(reopen.read().decode())
相关推荐
apocelipes5 小时前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
用户8356290780516 小时前
使用 Python 在 PDF 中创建与管理书签
后端·python
MeixianAgent11 小时前
Python 回测数据入口怎么验?历史 K 线入库前先做 5 个检查
后端·python
咕白m62514 小时前
用 Python 实现一键批量查找与替换 Excel 数据
后端·python
SelectDB1 天前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
荣码2 天前
GraphRAG:普通RAG只能回答"点"的问题,我踩了4个坑才搞懂
java·python
金銀銅鐵2 天前
[Python] 基于欧几里得算法,实现分数约分计算器
python·数学
Lyn_Li2 天前
Kaggle Top 5 | 198只股票、200条数据的金融预测——BattleFin高分方案从零复现
python·kaggle·比赛复盘·金融预测
小九九的爸爸2 天前
前端想要入门Agent开发,要具备哪些Python基础?
python·agent·ai编程
阿耶同学2 天前
手把手教你用 LangGraph 搭建三层嵌套 Agent 架构
python·程序员