【网络安全带你练爬虫-100练】第8练:json数据的最小项提取

目录

一、目标1:爬取指定json中数据

二、目标2:循环取json中数据

三、目标3:提取每个数据中的某一项

四、网络安全小圈子


一、目标1:爬取指定json中数据

爬取data里数据


核心代码:

复制代码
        dirt1 = json.loads(res.text)
        print(dirt1['data'])

(1)json.loads()方法可用于解析有效的JSON字符串并将其转换为Python字典

(2)dirt1['data']是打印json中的data部分


运行结果:

完成了爬取


代码:

复制代码
import requests
import json
from fake_useragent import UserAgent

def get_json():
    try:
        url = 'https://napi-huawei.tianyancha.com/next/web/home/vajialist?_=1688703382196'
        ua = UserAgent()
        headers = {
            'User-Agent': ua.chrome,
        }
        res = requests.get(url, headers=headers,timeout=10)
        dirt1 = json.loads(res.text)
        print(dirt1['data'])

    except:
        return ""


if __name__ == '__main__':
    get_json()


二、目标2:循环取json中数据

我这里有2部分才到列表里面是把

所以我要取列表中数据就要变为

复制代码
dirt1['data']['detailList']

循环:

使用一个循环就可以区分开来了

复制代码
        for item in dirt1['data']['detailList']:
            print(item)

代码:

复制代码
import requests
import json
from fake_useragent import UserAgent

def get_json():
    try:
        url = 'https://napi-huawei.tianyancha.com/next/web/home/vajialist?_=1688703382196'
        ua = UserAgent()
        headers = {
            'User-Agent': ua.chrome,
        }
        res = requests.get(url, headers=headers,timeout=10)
        dirt1 = json.loads(res.text)
        #print(dirt1['data'])
        for item in dirt1['data']['detailList']:
            print(item)

    except:
        return ""


if __name__ == '__main__':
    get_json()


三、目标3:提取每个数据中的某一项

目标

提取这2个指定项

理解:

此时item其实相当于dirt1['data']['detailList']中的一项

所以

复制代码
item['resourceKey'] === ['data']['detailList']['resourceKey']

这行代码精确到数据中的更小一项resourceKey

运行结果:

完整代码:

复制代码
import requests
import json
from fake_useragent import UserAgent

def get_json():
    try:
        url = 'https://napi-huawei.tianyancha.com/next/web/home/vajialist?_=1688703382196'
        ua = UserAgent()
        headers = {
            'User-Agent': ua.chrome,
        }
        res = requests.get(url, headers=headers,timeout=10)
        dirt1 = json.loads(res.text)
        #print(dirt1['data'])
        for item in dirt1['data']['detailList']:
            #print(item)
            print(item['resourceKey'])
            print(item['resourceName'])


    except:
        return ""


if __name__ == '__main__':
    get_json()


四、网络安全小圈子

README.md · 书半生/网络安全知识体系-实战中心 - 码云 - 开源中国 (gitee.com)https://gitee.com/shubansheng/Treasure_knowledge/blob/master/README.md

GitHub - BLACKxZONE/Treasure_knowledgehttps://github.com/BLACKxZONE/Treasure_knowledge

相关推荐
凉拌青瓜哈44 分钟前
DVWA-LOW级-SQL手工注入漏洞测试(MySQL数据库)+sqlmap自动化注入-小白必看(超详细)
mysql·安全·网络安全
quweiie2 小时前
tp8.0\jwt接口安全验证
前端·安全·jwt·thinkphp
没有bug.的程序员3 小时前
JAVA面试宝典 -《安全攻防:从 SQL 注入到 JWT 鉴权》
java·安全·面试
学习溢出5 小时前
【网络安全】理解安全事件的“三分法”流程:应对警报的第一道防线
网络·安全·web安全·网络安全·ids
鹿鸣天涯5 小时前
《红蓝攻防:构建实战化网络安全防御体系》
安全·web安全
前端小巷子8 小时前
深入理解XSS攻击
前端·安全·面试
代码改变世界ctw10 小时前
2.2 TF-A在ARM生态系统中的角色
汇编·arm开发·安全·trustzone·atf·optee
Bruce_Liuxiaowei13 小时前
dict协议在网络安全中的应用与风险分析
网络·安全·web安全·伪协议
FreeBuf_14 小时前
蓝牙协议栈高危漏洞曝光,攻击可入侵奔驰、大众和斯柯达车载娱乐系统
安全·web安全·娱乐
是小崔啊18 小时前
【爬虫】- 爬虫原理及其入门
爬虫