python ----- xml 命名空间与xpath详解

一、简介

本文章以如下xml 样例进行讲解命名空间和xpath

python 复制代码
xml_text="""<?xml version="1.0"?>
            <actors xmlns:fictional="http://characters.example.com"
                    xmlns="http://people.example.com">
                <actor>
                    <name>John Cleese</name>
                    <fictional:character>Lancelot</fictional:character>
                    <fictional:character>Archie Leach</fictional:character>
                </actor>
                <actor>
                    <name>Eric Idle</name>
                    <fictional:character>Sir Robin</fictional:character>
                    <fictional:character>Gunther</fictional:character>
                    <fictional:character>Commander Clement</fictional:character>
                </actor>
            </actors>"""

二、xml命名空间和find命令

xml中可以没有默认命名空间,但是如果要有,只能有一个默认命名空间;当一个xml使用了命名空间语法,则find/findall方法必须使用带有命名空间的调用方式否则无法查询数据。实例如下:

python 复制代码
root = ET.fromstring(xml_text)
for actor in root.findall('actor'):   # 结果为空
    name = actor.find('{http://people.example.com}name')
    print(name.text)
    for char in actor.findall('{http://characters.example.com}character'):
        print(' |-->', char.text)
python 复制代码
find(match, namespaces=None)
findall(match, namespaces=None)

其中的namespaces是一个dict类型或者一个空字符串,使用方式如下:

python 复制代码
ns1={'role1':'url1'}
find('role1:tag1',ns1)  #查询命名空间在url1的tag1

实例如下:

python 复制代码
ns = {'real_person': 'http://people.example.com',
      'role': 'http://characters.example.com'}

for actor in root.findall('real_person:actor', ns):
    name = actor.find('real_person:name', ns)
    print(name.text)
    for char in actor.findall('role:character', ns):
        print(' |-->', char.text)

或者

python 复制代码
find('{url1}tag1')  #查询命名空间在url1的tag1

实例如下:

python 复制代码
root = fromstring(xml_text)
for actor in root.findall('{http://people.example.com}actor'):
    name = actor.find('{http://people.example.com}name')
    print(name.text)
    for char in actor.findall('{http://characters.example.com}character'):
        print(' |-->', char.text)

三、xpath详解

语法 示例 说明
tag find("tag1") 查询标签为tag1的第一层子元素;spam/tag1 查询标签为spam的第一层子元素下的tag1标签
// find(".//a") 其中.是必须的,否则会报错;该语句会返回当前元素下的所有级别上的a标签,(不包含当前元素)
* find("*") 查询当前级别下的所有子元素,*/egg 查询当前层级下grandchild elements为egg的元素
[position] 位置是指当前层级下第一层子元素的位置,0代表第一个,1代表第二个,依此类推,-1代表倒数第二个

注意: 谓词(方括号内的表达式)前面必须有标记名称、星号或其他谓词。position 谓词前面必须有一个标记名称。

2、实践

find(*)

python 复制代码
xml_text1="<a name1='a1'><a name2='a2'><a name3='a3'></a></a><a name2_1='a2_1'><a name3_1='a3_1'></a></a></a>"
root1 = ET.fromstring(xml_text1)
for a in root1.findall('*'):
    print(a.attrib)
    
PS C:\Users\love1\Documents\technology\python\project\test1> python .\test-xml.py
{'name2': 'a2'}
{'name2_1': 'a2_1'}

child elements 第一层子元素

grandchild elements 第二层子元素

subelements 所有子元素

on all levels beneath the current element 在当前元素下的所有级别上

引用

python xml xpath

相关推荐
左左右右左右摇晃5 分钟前
Java并发——死锁
java·开发语言·spring
小白橘颂6 分钟前
【C语言】基础概念梳理(一)
c语言·开发语言·stm32·单片机·mcu·物联网·51单片机
沫离痕6 分钟前
AI机器人客服-Dify接入
开发语言·javascript·ecmascript
半瓶榴莲奶^_^23 分钟前
java模式
java·开发语言
sword devil90023 分钟前
TRAE:agent团队
开发语言
co_wait25 分钟前
【c 语言】linux下gcc编译工具的使用
linux·c语言·开发语言
2301_8154829326 分钟前
C++编译期矩阵运算
开发语言·c++·算法
Sunshine for you31 分钟前
如何用FastAPI构建高性能的现代API
jvm·数据库·python
☆56631 分钟前
C++中的类型擦除技术
开发语言·c++·算法
阿贵---35 分钟前
Python Web爬虫入门:使用Requests和BeautifulSoup
jvm·数据库·python