爬虫第4课:get请求

注意下面这些代码

  • 这个脚本直接打印出网页的HTML内容,而不是解析后的内容。如果你想要解析网页内容(如提取某些特定信息),你可能需要使用如BeautifulSoup之类的库。
  • 这个脚本没有进行错误处理,例如网络错误或请求超时等。在实际应用中,你可能需要添加适当的错误处理机制。
  • 使用 fake_useragent 生成随机用户代理有助于避免某些网站的防爬虫机制,但这并不能保证一定能成功绕过所有的防爬虫机制。某些网站可能会采用更复杂的策略来检测和阻止爬虫。
复制代码
# Pythonit教程网(blog.pythonit.cn)
# Python全栈视频课件获取:www.dqu.cc
# 加速高防cdn:woaiyundun.cn
复制代码
# coding:utf-8
# 时间:2024/3/16 16:16
# Pythonit教程网(blog.pythonit.cn)
# Python全栈视频课件获取:www.dqu.cc
# 加速高防cdn:woaiyundun.cn
from urllib.request import urlopen,Request
from fake_useragent import UserAgent
from urllib.parse import quote
search = input("请输入搜索的内容:")
url = f"https://blog.pythonit.cn/index.php/search/{quote(search)}"
ua = UserAgent()
headers = {
    'User-Agent': ua.chrome
}
re = Request(url,headers=headers)
reopen = urlopen(re)
print(reopen.read().decode())
相关推荐
RAY_0104几秒前
Python—数据可视化pyecharts
开发语言·python
Lvan的前端笔记19 分钟前
python:用 dotenv 管理环境变量&生产环境怎么管理环境变量
网络·数据库·python
Java Fans20 分钟前
用PyQt打造带动画、碰撞检测和键盘控制的小游戏
python·计算机外设·pyqt
深蓝海拓21 分钟前
PySide6从0开始学习的笔记(十一) QSS 属性选择器
笔记·python·qt·学习·pyqt
AAA_bo124 分钟前
liunx安装canda、python、nodejs、git,随后部署私有网页内容提取工具--JinaReader全攻略
linux·python·ubuntu·typescript·aigc·python3.11·jina
高洁0140 分钟前
DNN案例一步步构建深层神经网络(3)
python·深度学习·算法·机器学习·transformer
AI_567844 分钟前
Jupyter交互式数据分析的效率革命
开发语言·python
superman超哥1 小时前
仓颉语言中并发集合的实现深度剖析与高性能实践
开发语言·后端·python·c#·仓颉
superman超哥1 小时前
仓颉语言中原子操作的封装深度剖析与无锁编程实践
c语言·开发语言·后端·python·仓颉
拾贰_C1 小时前
【Anaconda | Python | pytorch】sklearn scikit-learn 报错:
pytorch·python·sklearn