Python进阶之路：正则表达式、高级语法与核心数据结构（链表、二叉树）全解析

前言

掌握Python的基础语法只是编程旅程的起点。当你开始处理复杂的文本匹配、追求更优雅的代码组织方式，或者需要手动实现高效的数据存储与查找时，进阶知识便成了绕不开的必修课。

Python正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式，

1、比如：检索一个串是否含有某种子串（检索）

2、比如：匹配的子串做替换（替换）

3、比如：从一个串中取出符合某个条件的子串（提取）

模式：一种特定的字符串模式，这个模式是通过一些特殊的符号组成的。

正则表达式并不是Python所特有的，在Java、PHP、Go以及JavaScript等语言中都是支持正则表达式的。

正则表达式的功能

数据验证（表单验证、如手机、邮箱、IP地址）

数据检索（数据检索、数据抓取） => 爬虫功能

数据隐藏（135****6235 王先生）

数据过滤（论坛敏感关键词过滤）

re模块的介绍

在Python中需要通过正则表达式对字符串进行匹配时，可使用re模块

re模块使用三步走

python 复制代码

# 第一步：导入re模块
import re
# 第二步：使用match方法进行匹配操作
result = re.match(pattern正则表达式, string要匹配的字符串, flags=0) 
#flags : 可选，表示匹配模式，比如忽略大小写，多行模式等
# 第三步：如果数据匹配成功，使用group方法来提取数据
result.group()

python 复制代码

def search():
    # 扫描字符返回第一个成功的匹配 def search(pattern, string, flags=0)
    import re
    result = re.search("\d.*", "city:1beijing2.shanghai")  # "\d.*": 数字开头,任意多个字符字符结尾
    # result = re.search(".\d.", "cityp.1.beijing2.shanghai")
    if result:
        print(result.group())
    else:
        print('没有匹配到')
    pass

if __name__ == '__main__':
    search()

正则表达式编写

能够使用re模块匹配单个字符

能够使用re模块匹配多个字符

能够使用re模块匹配指定字符串开头或者结尾

能够使用re模块提取分组数据

Python其他高级语法

With语句和上下文管理器

with语句

上下文管理器with语句：该机制简单、更安全的处理资源和异常

特点：with 语句执行完成后，自动调用关闭文件操作，即使出现异常也会自动调用关闭文件操作

python 复制代码

# 1、以写的方式打开文件
with open("1.txt", "w") as f:
    # 2、读取文件内容
    f.write("hello world")

上下文管理器

一个类只要实现了__enter__()和__exit__()这个两个方法，通过该类创建的对象我们就称之为上下文管理器

上下文管理器可以使用 with 语句

with语句之所以这么强大，背后是由上下文管理器做支撑的
刚才使用 open 函数创建的文件对象就是就是一个上下文管理器对象。
大白话：with 管理的对象就是上下文管理器； with xxx as 后面的操作的对象就是被管理的对象

定义上下文管理器类,模拟文件操作

定义一个File类，实现 enter () 和 exit()方法
然后使用 with 语句来完成操作文件

python 复制代码

class MyFile:
    def __init__(self, file_name, file_mode):
        self.file_name = file_name
        self.file_mode = file_mode   # 修正拼写
        self.fp = None

    def __enter__(self):
        print('这是上文')
        self.fp = open(self.file_name, self.file_mode)
        return self.fp

    def __exit__(self, exc_type, exc_val, exc_tb):
        print('这是下文')
        if self.fp:                 # 安全关闭
            self.fp.close()
        # 返回 False（默认）让异常继续传播，也可以根据需要处理 exc_type

if __name__ == '__main__':
    with MyFile('./1.txt', 'r') as f:
        filedata = f.read()
        print('filedata-->', filedata)

一个类只要实现了__enter__()和__exit__()这个两个方法，通过该类创建的对象我们就称之为上下文管理器
#_enter__表示上文方法，需要返回一个操作文件对象
#__exit__表示下文方法，with语句执行完成会自动执行，即使出现异常也会执行该方法

Python生成器

根据程序员制定的规则循环生成数据，当条件不成立时则生成数据结束。数据不是一次性全部生成出来，而是使用一个，再生成一个，可以节约大量的内存。

生成器推导式

python 复制代码

# 创建生成器 
# 注意1：括号（）代表 这是一个生成器，不是元组
# 注意2：括号（）里面写的是数据的生成规则，返回一个对象，
                                # 对象内不是存的数据，而是产生数据的规则
my_generator = (i * 2 for i in range(5))   # 根据注意2
print(my_generator)

# next获取生成器下一个值
# value = next(my_generator)
# print(value)

# 遍历生成器
for value in my_generator:
    print(value)

Property属性

property属性的介绍

负责把一个方法当做属性进行使用，这样做可以简化代码使用。

定义property属性有两种方式：① 装饰器方式 ② 类属性方式

python 复制代码

class Person(object):
    def __init__(self):
        self.__age = 0

    # 获取属性
    @property
    def age(self):
        return self.__age

    # 修改属性
    @age.setter
    def age(self, new_age):
        self.__age = new_age

if __name__ == '__main__':
    p1 = Person()
    print(p1.age)

    p1.age = 100
    print(p1.age)

装饰器方式:

@property 修饰获取值的方法

@方法名.setter 修饰设置值的方法

python 复制代码

class Person(object):
    def __init__(self):
        self.__age = 0

    def get_age(self):
        """当获取age属性的时候会执行该方法"""
        return self.__age

    def set_age(self, new_age):
        """当设置age属性的时候会执行该方法"""
        self.__age = new_age

    # 类属性方式的property属性
    age = property(get_age, set_age)

if __name__ == '__main__':
    p1 = Person()
    print(p1.age)

    p1.age = 100
    print(p1.age)

类属性方式:

类属性 = property(获取值方法, 设置值方法)

链表

顺序表存储时需要连续的内存空间，当要扩充顺序表时会出现以下两种情况：

链表不需要连续的存储空间

单链表(单向链表)是链表的一种形式，每个结点包含两个域：元素域和链接域 .

这个链接指向链表中的下一个结点 , 而最后一个结点的链接域则指向一个空值None

表元素域item用来存放具体的数据

链接域next用来存放下一个结点的位置

变量head指向链表的头结点（首结点）的位置，从head出发能找到表中的任意结点

结点对象SingleNode、链表对象SingLinkList

python 复制代码

class Node(object):
    """链表结点实现"""

    def __init__(self, item):
        # item: 存放元素
        self.item = item
        # next: 标识下一个结点
        self.next = None

如果 node 是一个结点:

获取结点元素 : node.item

获取下一个结点 : node.next

python 复制代码

class SingleLinkList(object):
    """单链表的实现"""

    def __init__(self, node=None): # 调用时不传入 node 参数，则 node 默认为 None。
        # 首结点
        self.head = node

is_empty(self) 链表是否为空

length(self) 链表长度

travel(self. ) 遍历整个链表

add(self, item) 链表头部添加元素

append(self, item) 链表尾部添加元素

insert(self, pos, item) 指定位置添加元素

remove(self, item) 删除节点

search(self, item) 查找节点是否存在

通过append(node) 方法不断添加元素 , 最终实现单链表

链表判空 , 长度 , 遍历

链表的判空

python 复制代码

def is_empty(self):
     """判断链表是否为空"""
     return self.head is None

链表的长度测量

python 复制代码

def length(self):
    """获取链表长度"""
    cur = self.head   # 游标，记录当前所在位置
    count = 0         # 记录链表的长度

    while cur is not None:
        count += 1
        cur = cur.next

    return count

链表的遍历

python 复制代码

def travel(self):
    """遍历链表"""
    cur = self.head
    while cur is not None:
        print(cur.item)
        cur = cur.next

链表增加节点

链表在头部增加结点

python 复制代码

def add(self, item):
    """头部增加结点"""
    node = SingleNode(item)  # 新结点存储新数据
    node.next = self.head
    self.head = node

append(item) 链表尾部添加结点

python 复制代码

def append(self, item):
    """尾部增加结点"""
    node = SingleNode(item)  # 新结点存储新数据

    if self.is_empty():
        self.head = node
    else:
        cur = self.head
        while cur.next is not None:
            cur = cur.next
        # 当前结点后面连接新结点
        cur.next = node

Insert(pos,item)在指定位置添加结点

python 复制代码

def insert(self, pos, item):
    """指定位置增加结点"""
    # 头部添加新结点
    if pos <= 0:
        self.add(item)
    # 尾部添加新结点
    elif pos >= self.length():
        self.append(item)
    # 中间位置添加新结点
    else:
        cur = self.head          # 游标
        count = 0                # 计数
        node = SingleNode(item)  # 新结点

        # 1. 找到插入位置的前一个结点
        while count < pos - 1:
            cur = cur.next
            count += 1

        # 2. 完成插入新结点
        node.next = cur.next
        cur.next = node

链表删除和查找节点

链表删除节点

python 复制代码

def remove(self, item):
    """删除结点"""
    cur = self.head   # 游标
    pre = None        # 辅助游标（指向前一个结点）

    while cur is not None:
        # 找到要删除的结点
        if cur.item == item:
            # 若删除的是头结点
            if cur == self.head:
                self.head = cur.next
            else:
                pre.next = cur.next
            return
        # 没有找到，继续向后移动
        else:
            pre = cur
            cur = cur.next

search(item) 查找节点是否存在

python 复制代码

def search(self, item):
    """查找结点是否存在"""
    cur = self.head  # 游标

    while cur is not None:
        if cur.item == item:
            return True
        cur = cur.next

    return False

顺序表和链表的比较

链表失去了顺序表随机读取的优点，链表由于增加了结点的连接域，空间开销比较大，但对存储空间的使用要相对灵活。

二叉树

树（英语：tree）就是一种非线性结构

它是用来模拟具有树状结构性质的数据集合. 它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做"树"是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的. 它具有以下的特点：

每个节点有零个或多个子节点
没有父节点的节点称为根节点
每一个非根节点有且只有一个父节点
除了根节点外，每个子节点可以分为多个不相交的子树

节点的度：一个节点含有的子节点的个数称为该节点的度

树的度：一棵树中，最大的节点的度称为树的度

叶节点或终端节点：度为零的节点

父亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点

孩子节点或子节点：一个节点含有的子树的根节点称为该节点的子节点

兄弟节点：具有相同父节点的节点互称为兄弟节点

节点的层次：从根开始定义起，根为第1层，根的子节点为第2层，以此类推

树的高度或深度：树中节点的最大层次

堂兄弟节点：父节点在同一层的节点互为堂兄弟

节点的祖先：从根到该节点所经分支上的所有节点

子孙：以某节点为根的子树中任一节点都称为该节点的子孙

森林：由m（m>=0）棵互不相交的树的集合称为森林

树的种类

无序树：树中任意节点的子节点之间没有顺序关系，这种树称为无序树，也称为自由树

有序树：树中任意节点的子节点之间有顺序关系，这种树称为有序树

有序树:

霍夫曼树（用于信息编码）：带权路径最短的二叉树称为哈夫曼树或最优二叉树

B树：一种对读写操作进行优化的自平衡的二叉查找树，能够保持数据有序，拥有多于两个的子树

二叉树：每个节点最多含有两个子树的树称为二叉树

完全二叉树：对于一颗二叉树，假设其深度为d(d>1)。除了第d层外，其它各层的节点数目均已达最大值，且第d层所有节点从左向右连续地紧密排列，这样的二叉树被称为完全二叉树，其中满二叉树的定义是所有叶节点都在最底层的完全二叉树

平衡二叉树（AVL树）：当且仅当任何节点的两棵子树的高度差不大于1的二叉树

排序二叉树（二叉查找树（英语：Binary Search Tree），也称二叉搜索树、有序二叉树）

排序二叉树(BST)的要求:

1.若左子树不空，则左子树上所有节点的值均小于它的根节点的值

2.若右子树不空，则右子树上所有节点的值均大于它的根节点的值

3.左、右子树也分别为二叉排序树

排序二叉树包含空树

满二叉树：层次存储的时候，从左到右控制节点产生

平衡二叉树：防止树变成链表

排序二叉树：对数据排序，检索起来速度快。

链式存储：由于对节点的个数无法掌握，常见树的存储表示都转换成二叉树进行处理，子节点个数最多为2

二叉树的性质

二叉树的广度优先遍历

深度优先往往可以很快找到搜索路径：

比如：先找一个结点看看是不是终点，若不是继续往深层去找，直到找到终点。

中序，先序，后序属于深度优先算法

广度优先可以找到最短路径：

相当于层次遍历，先把第1层给遍历完，看有没有终点；再把第2层遍历完，看有没有重点。

初始操作：

初始化队列、将根节点入队、准备加入到二叉树的新结点

重复执行：

获得并弹出队头元素

1、若当前结点的左右子结点不为空，则将其左右子节点入队列

2、若当前结点的左右子节点为空，则将新结点挂到为空的左子结点、或者右子节点

python 复制代码

class Node(object):
    """二叉树结点实现"""
    def __init__(self, item):
        self.item = item
        self.lchild = None   # 左子树
        self.rchild = None   # 右子树


class BinaryTree(object):
    """二叉树的实现（基于队列的层次添加）"""

    def __init__(self, node=None):
        self.root = node

    def add(self, item):
        """添加结点（层次遍历方式）"""
        # 1. 树为空，把 item 设置成根结点
        if self.root is None:
            self.root = Node(item)
            return

        # 2. 准备队列，把根结点添加到队列
        queue = [self.root]

        while True:
            # 3. 从队列中取出一个结点
            node = queue.pop(0)

            # 4-1. 若左子树为空，把新结点挂在左子树上，并返回；否则左子树加入队列
            if node.lchild is None:
                node.lchild = Node(item)
                return
            else:
                queue.append(node.lchild)

            # 4-2. 若右子树为空，把新结点挂在右子树上，并返回；否则右子树加入队列
            if node.rchild is None:
                node.rchild = Node(item)
                return
            else:
                queue.append(node.rchild)

总结

进阶之路没有终点，愿这份总结成为你继续探索Python深层奥秘的一块坚实跳板。