python爬虫-网页数据提取

python 复制代码
import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取,构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素,可以在页面移动#光标
for element in elements:
    print(element.text)
##也可以在elements中右键copy xpath,这里需要分析一下,将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)
  


相关推荐
MC皮蛋侠客6 小时前
C++17 多线程系列(二):共享数据与同步——mutex 与 condition_variable
开发语言·c++·多线程
愈努力俞幸运6 小时前
python 三引号
android·开发语言·python
止语Lab6 小时前
Go跨平台编译的决策树:从\
开发语言·决策树·golang
Das16 小时前
【408】C语言标识符
c语言·开发语言
zxd0203116 小时前
DevOps + CI/CD:从理念到 Jenkins 实战落地
java·开发语言
qq_白羊座6 小时前
GitLab CI + Jenkins 双流水线模式Jenkins 端实现
java·开发语言
say_fall6 小时前
8086汇编程序设计_从基础到实战
开发语言·汇编·8086
TechWayfarer6 小时前
别让“能用”的IP拖垮业务——共享IP易封禁的原因与IP风险等级评估实战
网络·python·tcp/ip·安全
暴躁小师兄数据学院6 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第1章):Python基础与环境搭建
人工智能·笔记·python·ai
ZHW_AI课题组6 小时前
基于随机森林的红酒质量等级预测分类
人工智能·python·随机森林·机器学习