前言
本篇博文是 《Selenium IDE 自动化实战案例》 系列的第四 篇博文,主要内容是使用 requests 库来获取情报星球社区中的每日情报及安全资讯,并通过 XPATH 语法筛选出自己需要的内容,最后设置机器人定时推送 ,往期系列文章请访问博主的 自动化实战案例 专栏,博文中的所有代码全部收集在博主的 GitHub 仓库 中;
严正声明:本博文所讨论的技术仅用于研究学习,任何个人、团体、组织不得用于非法目的,违法犯罪必将受到法律的严厉制裁。
展示
data:image/s3,"s3://crabby-images/a3653/a36530d17c615038c79daec7d7e5b7555f71a302" alt=""
data:image/s3,"s3://crabby-images/9fdba/9fdba8d8552102b26ecc03489cbcdb1a9d452bc9" alt=""
实现
根据自己的需要获取页面内容,这里我们以获取漏洞情报、情报精选和安全资讯为例。
data:image/s3,"s3://crabby-images/fa0f5/fa0f536185a954956ebaa5c54278a524b5a35378" alt=""
通过观察页面元素,发现我们需要获取的内容刚好在这三个 table 里面,因此,我们先通过 XPATH 语法获取到这些 <table>
标签,代码如下所示:
py
detail_resp = requests.get(detail_url)
detail_html = etree.HTML(detail_resp.text)
tables = detail_html.xpath('//*[@id="detail-box-view"]/div/div/table')
漏洞情报获取
先通过 F12 查看我们需要获取内容的页面元素:
data:image/s3,"s3://crabby-images/baa1a/baa1a5c8beb9cb084f289e43a6ed83cd5c56b65f" alt=""
根据 DOM 元素编写相应的 XPATH 语法并进行验证:
data:image/s3,"s3://crabby-images/cda81/cda81a9a2ee47bd799832d22aa20d02745461535" alt=""
由于标题里用的是 <th>
元素,而内容里用的是 <td>
元素,因此可以使用符号 *
来匹配任何元素节点。
data:image/s3,"s3://crabby-images/21871/21871dbc9761205b2d9063425fca00947697bfde" alt=""
同时出现了 <a>
标签,但是其 text 内容包含了 URL,因此可以不用去获取其 href 属性,代码如下所示:
py
table0 = tables[0]
trs0 = table0.xpath('tbody/tr')
for tr in trs0:
print("[1]", tr.xpath('*/text() | */a/@href'))
print("[2]", tr.xpath('.//text()'))
在上述代码中,[1] 是从 href 属性中获取的 URL,而 [2] 则是通过文本匹配进行获取,运行结果如下所示:
data:image/s3,"s3://crabby-images/6d5e3/6d5e3af05d7835346158a6ab86834f16f25e786a" alt=""
情报精选获取
先分析一下这一模块的页面元素:
data:image/s3,"s3://crabby-images/b346b/b346b7d538857a19789b69449c745d900c5210af" alt=""
发现与漏洞情报的页面元素类似,因此直接构造代码如下所示:
py
table1 = tables[1]
trs1 = table1.xpath('tbody/tr')
for tr in trs1:
if first:
first = False
continue
lst = tr.xpath('.//text()')
print(lst)
运行结果:
data:image/s3,"s3://crabby-images/e5a9b/e5a9b5f96cc261f6b4de6aea7a9773bf3ed231e7" alt=""
安全资讯获取
虽然这个 table 与之前的看着有点不太一样,但是也可以通过 .//text()
去匹配其中的内容:
data:image/s3,"s3://crabby-images/16d5b/16d5b9b3ea31364004582643e03787888169c197" alt=""
代码如下所示:
py
table2 = tables[2]
trs2 = table2.xpath('tbody/tr')
for tr in trs2:
lst = tr.xpath('.//text()')
print(lst)
运行结果:
data:image/s3,"s3://crabby-images/5cc1f/5cc1fbaad5d4cc91d41ec008d2be8ed1b8291da5" alt=""
后记
通过使用 requests 库,我们成功地获取到了情报星球社区中的每日情报及安全资讯详情页,再继续分析其中的页面元素并且使用 XPATH 语法筛选出自己需要的内容,最后设置机器人定时推送相关内容。
文中每日情报及安全资讯内容来自于 情报星球 社区。
以上就是 时刻关注网络安全,机器人推送每日情报及安全资讯 的所有内容了,希望本篇博文对大家有所帮助!
严正声明:本博文所讨论的技术仅用于研究学习,任何个人、团体、组织不得用于非法目的,违法犯罪必将受到法律的严厉制裁。
📝 上篇精讲:(三)筛选活动中点赞数量 TOP5 的作品
💖 我是 𝓼𝓲𝓭𝓲𝓸𝓽,期待你的关注,创作不易,请多多支持;
👍 公众号:sidiot的技术驿站;
🔥 系列专栏:Selenium IDE 自动化实战案例