flask 》》内置HTMLParser

csharp 复制代码
from html.parser import HTMLParser

class LinkExtractor(HTMLParser):
    """一个自定义的HTML解析器,用于提取所有链接"""
    def __init__(self):
        # 初始化父类,convert_charrefs=True 是默认且推荐的设置
        super().__init__(convert_charrefs=True)
        self.links = []  # 用于存储提取到的链接

    def handle_starttag(self, tag, attrs):
        """重写开始标签处理方法"""
        # 我们只关心 <a> 标签
        if tag == 'a':
            # attrs 是一个包含 (属性名, 属性值) 元组的列表
            for attr_name, attr_value in attrs:
                if attr_name == 'href':
                    # 找到 href 属性,将其添加到列表中
                    self.links.append(attr_value)
                    print(f"找到一个链接: {attr_value}")

    def handle_data(self, data):
        """重写文本处理方法,这里仅仅是演示,可以对文本做进一步处理"""
        # 对于提取链接这个任务,我们实际上不需要处理文本
        pass

# 1. 准备一段待解析的HTML代码片段
sample_html = """
<div class="container">
    <h1>我的收藏夹</h1>
    <p>欢迎来到我的<a href="https://example.com">示例网站</a>。</p>
    <ul>
        <li><a href="https://python.org">Python官网</a></li>
        <li><a href="/about">关于我们</a></li>
        <li><a>这是一个无效的链接,没有href属性</a></li>
    </ul>
    <img src="logo.png" alt="Logo">
</div>
"""

# 2. 创建解析器实例
parser = LinkExtractor()

# 3. 将HTML数据喂给解析器
# 注意 feed 方法可以分多次调用,对于流式数据非常有用
parser.feed(sample_html)

# 4. 解析完成后,可以获取结果
print("\n所有提取到的链接:")
for link in parser.links:
    print(link)

################   结   果  ##########################
找到一个链接: https://example.com
找到一个链接: https://python.org
找到一个链接: /about

所有提取到的链接:
https://example.com
https://python.org
/about
相关推荐
2401_837163892 小时前
PHP怎么写API接口_RESTful API基础写法介绍【介绍】
jvm·数据库·python
独自归家的兔2 小时前
OCPP 1.6 协议详解:ClearCache 清除缓存指令
java·后端·spring
qq_413502022 小时前
PHP跨平台部署AI应用_Docker容器化方案【教程】
jvm·数据库·python
2401_832365522 小时前
HTML怎么区分正文与广告_HTML aside与广告位语义【技巧】
jvm·数据库·python
AI玫瑰助手2 小时前
Python基础:字典的键值对结构与增删改查操作
android·开发语言·python
阿丰资源2 小时前
基于SpringBoot的高校心理教育辅导系统(附源码+数据库+文档)
数据库·spring boot·后端
鹏程十八少2 小时前
8. 2026金三银四 Android别再说你会用 RecyclerView了!20道面试题测测你的真实水平
前端·后端·面试
m0_676544382 小时前
HTML5中SVG线性渐变LinearGradient的矢量实现
jvm·数据库·python
深度学习lover2 小时前
<项目代码>yolo航拍军事目标识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·航拍军事目标识别