爬取目标网站的域名和子域名【网站子域扫描工具01】

使用 Python 的 requests 库发送 HTTP 请求,并使用 Beautiful Soup或者正则表达式来解析响应,从中提取出域名和子域名信息。

1.简单示例(Beautiful Soup)

这是一个简单的示例代码,演示如何使用 requests 和 BeautifulSoup 来获取网页中的链接:

下面是带有注释的代码,解释了每一步具体在做什么:

python 复制代码
import requests  # 导入发送 HTTP 请求的库
from bs4 import BeautifulSoup  # 导入用于解析 HTML 的库

# 定义一个函数,用于获取目标网站的子域名
def get_subdomains(url):
    # 发送一个 GET 请求到目标网站,并获取响应内容
    response = requests.get(url)
    
    # 使用 BeautifulSoup 解析响应的 HTML 内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    subdomains = set()  # 创建一个集合,用于存储提取出的子域名
    
    # 遍历所有带有 href 属性的链接
    for link in soup.find_all('a'):
        href = link.get('href')  # 获取链接的地址
        if href and href.startswith('http'):  # 如果链接以 http 开头(避免处理相对链接)
            domain = href.split('/')[2]  # 提取链接中的域名部分作为子域名
            subdomains.add(domain)  # 将提取到的子域名加入集合中
    
    return subdomains  # 返回提取到的子域名集合

target_url = 'http://www.baidu.com'  # 设置目标网站的 URL
subdomains = get_subdomains(target_url)  # 调用函数获取子域名
print(subdomains)  # 打印提取到的子域名集合

在这个示例中,我们首先发送了一个 GET 请求到目标网站,然后用 BeautifulSoup 解析响应的 HTML 内容,提取出所有带有 href 属性的链接,并从中提取出域名部分作为子域名。最后将提取到的子域名放入集合中并返回。

2.简单示例(正则表达式)

以下是一个简单的示例代码:

python 复制代码
import requests
import re

def get_subdomains(url):
    response = requests.get(url)  # 发送GET请求获取网页内容
    html_content = response.text  # 获取网页HTML内容

    # 使用正则表达式从HTML内容中提取子域名
    subdomains = re.findall(r'(https?://\w+\.\w+\.\w+)', html_content)

    return subdomains

target_url = 'http://www.baidu.com'
subdomains = get_subdomains(target_url)
print(subdomains)

在这个示例中,我们使用了requests库发送了一个GET请求到目标网站,并获取了网页的HTML内容。接着,我们使用了正则表达式来从HTML内容中提取出子域名。

3.小结

这只是一个简单的示例,实际情况可能更加复杂,需要考虑不同网页结构、链接格式等问题。

相关推荐
landyjzlai4 小时前
蓝迪哥玩转Ai(8)---端侧AI:RK3588 端侧大语言模型(LLM)开发实战指南
人工智能·python
我叫黑大帅5 小时前
如何通过 Python 实现招聘平台自动投递
后端·python·面试
其实防守也摸鱼6 小时前
CTF密码学综合教学指南--第九章
开发语言·网络·python·安全·网络安全·密码学·ctf
砚底藏山河6 小时前
Python量化开发:2026最佳实时股票数据API接口推荐与对比
开发语言·windows·python
研究点啥好呢7 小时前
专为求职者开发的“面馆”!!!摆脱面试焦虑!!!
python·面试·开源·reactjs·求职招聘·fastapi
DFT计算杂谈8 小时前
自动化脚本一键绘制三元化合物相图
java·运维·服务器·开发语言·前端·python·自动化
EW Frontier8 小时前
6G ISAC新范式:基于智能漏波天线的Wi‑Fi通感一体化系统设计与实测【附MATLAB+python代码】
开发语言·python·matlab·music·isac·doa·wi‑fi
姚青&8 小时前
测试技术体系
java·python
易标AI9 小时前
标书智能体(五)——如何让弱模型也能稳定输出复杂json
人工智能·python·提示词·智能体·招投标
Cyber4K9 小时前
【Python专项】Nginx访问日志分析时间范围处理示例
开发语言·python·nginx