爬虫与反爬虫实现全流程

我选取的网页爬取的是ppt nba

需要的工具:pycharm,浏览器

爬虫需要观察它的网页信息,然后开始首先爬取它的html,可以看到有人气,标题,日期,咨询

可以看到用get方法

python 复制代码
import requests
url="https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fwww.ptt.cc%2Fbbs%2FNBA%2Findex.html&pos_id=lJ5YB9Tu"
respone=requests.get(url)
print(respone.text)

接下来把它下载下来

python 复制代码
with open('output.html','w',encoding='utf-8')as f:
    f.write(respone.text)

反爬虫使用header方法,观察User-Agent: AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36

放入header

python 复制代码
import requests
url="https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fwww.ptt.cc%2Fbbs%2FNBA%2Findex.html&pos_id=lJ5YB9Tu"
headers={'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'}
respone=requests.get(headers=headers)
# print(respone.text)
with open('output.html','w',encoding='utf-8')as f:
    f.write(respone.text)

接下来正式开始爬取自己想要的资料

去终端机安一下beautifulsoup

python 复制代码
pip install beautifulsoup4

解析获得文章列表parser

复制代码
soup beautifulSoup(respone.text,"html.parser" )

接下来把我们需要的值一个一个取出来

标题: div a title.text

人气:div class=nrec span

日期:div date

相关推荐
才兄说2 分钟前
机器人二次开发机器狗巡检?全流程自主
python
weixin_444012932 分钟前
mysql如何升级版本至最新_mysql大版本平滑升级策略
jvm·数据库·python
叼烟扛炮6 分钟前
C++ 知识点06 inline
开发语言·c++·inline
阿荻在肝了10 分钟前
Agent学习八:LangGraph学习-小结
python·学习·agent
kexnjdcncnxjs17 分钟前
mysql如何优化小表的查询索引_mysql全表扫描与索引代价对比
jvm·数据库·python
曹牧34 分钟前
C#:同一项目中维护多个版本的代码
开发语言·c#
下次再写37 分钟前
2026年Java开发者Python学习全攻略:从入门到实战
python·数据分析·web开发·ai应用·学习路径·java开发者·2026技术趋势
青山师37 分钟前
Java反射深度解析:运行时探查的艺术、代价与工程实践
java·开发语言·面试·反射·java程序员·java核心
skilllite作者39 分钟前
Deer-Flow 工作流引擎深度评测报告
java·大数据·开发语言·chrome·分布式·架构·rust
likerhood39 分钟前
Java的TimeUnit详细讲解
java·开发语言