【实验内容】
本实验主要介绍在数据采集过程中对js代码进行分析从而对加密字段进行解密。
【实验目的】
1、理解js逆向工程的概念
2、学会逆向工程中的加解密分析
【实验步骤】
步骤1 理解js逆向工程的概念
步骤2 学会逆向工程中的加解密分析
步骤3 采集广东政府采购网
步骤1:理解js逆向工程的概念
JavaScript逆向工程是指通过分析、理解和操作JavaScript代码,以揭示和破解其实现的逻辑和功能。这种技术通常用于深入了解网页前端的运作方式、修改网页行为、逆向工程加密算法或处理动态生成的内容等情况。
-
JavaScript代码分析: 逆向工程的第一步是深入分析JavaScript代码。开发者工具、浏览器控制台以及其他工具可以用于查看网页源代码、JavaScript脚本以及网络请求。
-
功能理解:逆向工程涉及理解JavaScript代码的功能和逻辑。这包括了解脚本中的变量、函数、事件处理程序等,以及它们如何与页面交互和影响数据的生成和呈现。
-
加密算法解析:当网页使用JavaScript进行数据加密时,逆向工程要求分析加密算法。这可能包括密钥生成、加密过程、解密过程等方面。逆向工程者试图理解加密逻辑,并可能撰写相应的解密算法。
-
模拟用户行为:在一些情况下,逆向工程可能涉及模拟用户与页面的交互,以触发特定的JavaScript行为。这对于处理需要用户交互的网页或触发动态加载数据的情况特别有用。
-
绕过反爬机制:
一些网站采用反爬机制,通过JavaScript加密或混淆数据,以防止被爬虫轻松获取。通过逆向工程,可以绕过这些机制,获取原始数据。
步骤2 学会逆向工程中的加解密分析
在对广东政府采购网进行页面分析时发现在发送的ajax请求头中存在着一个Nsssjss的加密字段,在发送一个请求时必须携带正确的密文才能返回数据,但我们并不知道这段密文的具体含义,此时就需要分析一下js文件。
-**************************************************************
/=============================================================================================================== /首先理解一下非对称加密算法,非对称加密是一种使用公钥和私钥进行加密和解密的加密算法。
-***************************************************************************
-
密钥对生成: 首先,参与通信的每个实体都会生成一对非对称密钥,包括一个公钥和一个私钥。这对密钥是数学相关的,但是无法通过公钥推导出私钥。
-
公钥分发: 每个实体将其公钥分发给通信的其他实体,但私钥保持秘密。公钥是用于加密的,而私钥用于解密。
-
加密过程: 当实体A想要向实体B发送加密消息时,实体A使用实体B的公钥对消息进行加密。只有拥有相应私钥的实体B才能解密这条消息。
-
解密过程: 实体B使用其私钥对接收到的加密消息进行解密,得到原始的消息。
非对称加密的关键在于公钥用于加密,私钥用于解密。由于私钥不会被公开分享,只有拥有相应私钥的实体才能够解密加密的消息,从而保障了通信的安全性。这种加密方法广泛用于安全通信、数字签名等领域。
复制encryptByRSA函数到index.html中搜索,可以找到nsssjss字段的组成
-**********************************************************************
继续搜索getComon函数,可以看到其返回值。
-*******************************************************************************
由此,我们得到了nsssjss字段的值是由/=================================================================/
步骤3 采集广东政府采购网
(1) 构造nsssjss加密字段
使用 PyCryptoDome 库中的 RSA 模块,importKey 方法用于导入公钥,public_key 是传递给函数的公钥字符串。
-*******************************************************************
构造nsssjss加密字段,调用encrypt_by_rsa函数,将公钥和value传递过去,返回加密后的字段。
-*******************************************************************
将加密字段添加到请求头中做参数传递给服务器。
-*******************************************************************
(2) 获取子页面链接
import httpx
client = httpx.Client()
/=============================================================================================/
随后,将数据传递给parse_html函数进行解析。
(3) 解析子页面数据
从子页面返回的数据中进行清洗,去除掉style、script 标签,拿到全部的文本数据
-*************************************************************************
/============================================================================================================================================= /
-************************************************************************
/===============================================================================================/
(4) 保存数据
-***********************************************************************
使用with语句打开文件 "guangdong -zhong.json",打开模式为追加模式 a,以UTF-8编码。将JSON格式的字符串 message 写入文件,并添加一个逗号和换行符,以便在后续追加新的JSON数据。
生成单个字段完整示例如下:
-**************************************************************