python爬虫-网页数据提取

python 复制代码
import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取,构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素,可以在页面移动#光标
for element in elements:
    print(element.text)
##也可以在elements中右键copy xpath,这里需要分析一下,将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)
  


相关推荐
yb0os15 分钟前
RPC实战和核心原理学习(一)----基础
java·开发语言·网络·数据结构·学习·计算机·rpc
liuyao_xianhui14 分钟前
内存管理(C/C++)
java·开发语言·c++
饭碗的彼岸one31 分钟前
C++设计模式之单例模式
c语言·开发语言·c++·单例模式·设计模式·饿汉模式·懒汉模式
尝试经历体验1 小时前
pycharm突然不能正常运行
python·深度学习·pycharm
青铜发条1 小时前
【Qt】PyQt、原生QT、PySide6三者的多方面比较
开发语言·qt·pyqt
jay神1 小时前
基于Python的商品爬取与可视化系统
爬虫·python·数据分析·毕业设计·可视化系统
浪浪山齐天大圣2 小时前
python数据可视化之Matplotlib(8)-Matplotlib样式系统深度解析:从入门到企业级应用
python·matplotlib·数据可视化
F_D_Z2 小时前
【PyTorch】单对象分割
人工智能·pytorch·python·深度学习·机器学习
编程自留地2 小时前
18.4 查看订单
python·django·商城
wanzhong23332 小时前
学习triton-第1课 向量加法
开发语言·python·高性能计算