Python 解析 html

一、场景分析

假设有如下 html 文档:

写一段 python 脚本,解析出里面的数据,包括经度维度。

html 复制代码
<div class='storelist'>
    <ul>
        <li lng="100.111111" lat="10.111111">
            <h4>联盟店1</h4>
            <p>
                <br />X市Y区Z街道 1000 号
            </p>
        </li>
        <li lng="101.111111" lat="11.111111">
            <h4>联盟店2</h4>
            <p>
                <br />X市Y区Z街道 1001 号
            </p>
        </li>
        <li lng="102.111111" lat="12.111111">
            <h4>联盟店3</h4>
            <p>
                <br />X市Y区Z街道 1002 号
            </p>
        </li>
    </ul>
</div>

二、步骤

1、安装 BeautifulSoup4 库

python 复制代码
pip install bs4
或者
pip install beautifulsoup4

2、脚本内容

store.py 脚本内容如下:

python 复制代码
from bs4 import BeautifulSoup

# 官方文档:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#id14

# 输入文档
input_path = r"C:\Users\Administrator\Desktop\py\html\store.html"
# 输出文档
output_path = r"C:\Users\Administrator\Desktop\py\html\data.txt"
# 以 append 追加方式打开输出文档
output_file = open(output_path, 'a', encoding='utf-8')

# 打开 html 输入文档,并使用 Python 标准库 html.parser 解析成 BeautifulSoup 对象
soup = BeautifulSoup(open(input_path, 'r', encoding='utf-8'), 'html.parser')

# 搜索文档树,获取到所有 li TAG 组成的数组
li_array = soup.find_all('li')

# 遍历这个数组,并往输出文档输出信息
for i, li in enumerate(li_array):
      # print(li.contents)
      output_file.write('\n'+str(i+1)+'、'+li.contents[1].text)
      output_file.write('\n 经度:'+li['lng'])
      output_file.write('\n 维度:'+li['lat'])
      output_file.write('\n 名称:'+li.contents[1].text)
      output_file.write('\n 地址:'+li.contents[3].text.strip())

output_file.close()

其中,contents 属性可以将 tag 的子节点以列表的方式输出:

python 复制代码
print(li.contents)

我们可以用列表索引来获取它的某一个元素

li.contents[1] 表示 <h4>联盟店X</h4> 获取标签里面的内容,就是 li.contents[1].text

li.contents[3] 表示 <p></p> 因为 p 后面有换行,所以用 strip() 函数去掉换行符

不然输出结果就会变成

3、运行

python 复制代码
py store.py

4、输出结果

python 复制代码
1、联盟店1
 经度:100.111111
 维度:10.111111
 名称:联盟店1
 地址:X市Y区Z街道 1000 号
2、联盟店2
 经度:101.111111
 维度:11.111111
 名称:联盟店2
 地址:X市Y区Z街道 1001 号
3、联盟店3
 经度:102.111111
 维度:12.111111
 名称:联盟店3
 地址:X市Y区Z街道 1002 号

三、拥抱AI

像这种简单的脚本程序,现在都可以叫 AI (比如豆包) 帮我们写:

相关推荐
h^hh4 分钟前
洛谷 P3405 [USACO16DEC] Cities and States S(详解)c++
开发语言·数据结构·c++·算法·哈希算法
qwy71522925816310 分钟前
20-R 绘图 - 饼图
开发语言·数据库·r语言
java1234_小锋11 分钟前
一周学会Flask3 Python Web开发-redirect重定向
前端·python·flask·flask3
重生之我要成为代码大佬11 分钟前
Python天梯赛10分题-念数字、求整数段和、比较大小、计算阶乘和
开发语言·数据结构·python·算法
Daitu_Adam16 分钟前
Windows11安装GPU版本Pytorch2.6教程
人工智能·pytorch·python·深度学习
阿正的梦工坊19 分钟前
Grouped-Query Attention(GQA)详解: Pytorch实现
人工智能·pytorch·python
琑9529 分钟前
nextjs项目搭建——头部导航
开发语言·前端·javascript
码界筑梦坊43 分钟前
基于Flask的短视频流量数据可视化系统的设计与实现
大数据·python·信息可视化·flask·毕业设计
酷爱码44 分钟前
2025 PHP授权系统网站源码
开发语言·php
张胤尘1 小时前
Lua | 每日一练 (3)
开发语言·面试·lua