python爬虫-网页数据提取

python 复制代码
import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取,构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素,可以在页面移动#光标
for element in elements:
    print(element.text)
##也可以在elements中右键copy xpath,这里需要分析一下,将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)
  


相关推荐
不做超级小白12 分钟前
深入理解 JavaScript 对象字面量:创建对象的简洁方法
开发语言·javascript·ecmascript
我曾经是个程序员12 分钟前
C#集合排序的三种方法(List<T>.Sort、LINQ 的 OrderBy、IComparable<T> 接口)
开发语言·c#
半夏知半秋34 分钟前
rust学习-rust中的格式化打印
服务器·开发语言·后端·学习·rust
SmallBambooCode1 小时前
【Flask】在Flask应用中使用Flask-Limiter进行简单CC攻击防御
后端·python·flask
IU宝1 小时前
vector的使用,以及部分功能的模拟实现(C++)
开发语言·c++
抱抱宝1 小时前
Pyecharts之图表样式深度定制
python·信息可视化·数据分析
码界筑梦坊1 小时前
基于Flask的哔哩哔哩评论数据可视化分析系统的设计与实现
python·信息可视化·flask·毕业设计
大懒猫软件1 小时前
如何有效使用Python爬虫将网页数据存储到Word文档
爬虫·python·自动化·word
小熊科研路(同名GZH)1 小时前
【Matlab高端绘图SCI绘图模板】第05期 绘制高阶折线图
开发语言·matlab·信息可视化
大数据魔法师1 小时前
1905电影网中国地区电影数据分析(二) - 数据分析与可视化
python·数据分析