python爬虫-网页数据提取

python 复制代码
import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取,构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素,可以在页面移动#光标
for element in elements:
    print(element.text)
##也可以在elements中右键copy xpath,这里需要分析一下,将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)
  


相关推荐
电商API_180079052471 天前
淘宝商品视频提取API全解析:从授权到落地实战
爬虫·python·信息可视化·数据分析·音视频
leiming61 天前
c++ 容器 queue
开发语言·c++
计算机程序设计小李同学1 天前
基于 Flask 的养猪场信息模拟系统
后端·python·flask
CSDN_RTKLIB1 天前
【类定义系列三】内联函数进阶
开发语言·c++
Iridescent11211 天前
Iridescent:Day38
python
熬夜敲代码的小N1 天前
2026 职场生存白皮书:Gemini Pro 实战使用指南
人工智能·python·ai·职场和发展
北京流年1 天前
执行clang --version报错说由于找不到 libgcc_s_seh-1.dll和 找不到 libstdc++-6.dll 这两个文件
开发语言·c++
Franklin1 天前
移植一个Pycharm的复杂项目:
ide·python·pycharm
weixin_440730501 天前
Java基础学习day01
java·开发语言·学习
94621931zyn61 天前
外观设置 - Cordova 与 OpenHarmony 混合开发实战
笔记·python