爬虫—中信证券资管产品抓取

爬虫---中信证券资管产品抓取

中信证券资管产品板块网址:http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/

页面截图如下:

目标:抓取上图中红框内的所有资产信息

按F12进入开发者工具模式,在Elements板块下,在搜索框内输入"//ul[@class="list-con"]/li",匹配ul列表里的所有资管产品的li标签,如图:

抓取单页数据,源码如下:

python 复制代码
import requests
from lxml import etree


headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

url = 'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index.html'

res = requests.get(url, headers=headers)

res.encoding = res.apparent_encoding

data = res.text

tree = etree.HTML(data)

# 获取每个li标签
li_lst = tree.xpath('//ul[@class="list-con"]/li')

i = 1
for li in li_lst:
    print(str(i)+'.', ', '.join(li.xpath('./span/text()')))
    i += 1

运行结果如下:

本案例只抓取第一页的资管产品信息,如果想抓取多页,可以自行修改代码。

抓取多页数据,源码如下:

python 复制代码
import requests
from lxml import etree

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}


# 定义一个函数,抓取每页的数据
def get_page(page_url):
    res = requests.get(page_url, headers=headers)

    res.encoding = res.apparent_encoding

    data = res.text

    tree = etree.HTML(data)

    # 获取每个li标签
    li_lst = tree.xpath('//ul[@class="list-con"]/li')

    i = 1
    for li in li_lst:
        print(str(i) + '.', ', '.join(li.xpath('./span/text()')))
        i += 1


# 抓取前4页的数据
for page_n in range(4):
    # 格式化资管产品的页面网址
    page_url = f'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index_{page_n}.html'
    # 第一页的资管产品网址
    if page_n == 0:
        page_url = 'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index.html'
    print(f'第{page_n + 1}页资管产品:')

    get_page(page_url)

运行结果如下:

思考:如果抓取任意页数的数据,可以参考如下代码。

python 复制代码
# 定义一个页数变量
page_num = input('请输入要抓取的页数: ')

把抓取多页源码的range()内的数字替换为page_num,要转成整型数据int(page_num)。
.....
相关推荐
ZH15455891315 分钟前
Flutter for OpenHarmony Python学习助手实战:面向对象编程实战的实现
python·学习·flutter
玄同7655 分钟前
SQLite + LLM:大模型应用落地的轻量级数据存储方案
jvm·数据库·人工智能·python·语言模型·sqlite·知识图谱
User_芊芊君子10 分钟前
CANN010:PyASC Python编程接口—简化AI算子开发的Python框架
开发语言·人工智能·python
白日做梦Q21 分钟前
Anchor-free检测器全解析:CenterNet vs FCOS
python·深度学习·神经网络·目标检测·机器学习
喵手35 分钟前
Python爬虫实战:公共自行车站点智能采集系统 - 从零构建生产级爬虫的完整实战(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集公共自行车站点·公共自行车站点智能采集系统·采集公共自行车站点导出csv
喵手42 分钟前
Python爬虫实战:地图 POI + 行政区反查实战 - 商圈热力数据准备完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·地区poi·行政区反查·商圈热力数据采集
熊猫_豆豆1 小时前
YOLOP车道检测
人工智能·python·算法
nimadan121 小时前
**热门短剧小说扫榜工具2025推荐,精准捕捉爆款趋势与流量
人工智能·python
默默前行的虫虫1 小时前
MQTT.fx实际操作
python
YMWM_1 小时前
python3继承使用
开发语言·python