python 小案例正则表达式

正则表达式是一种用于匹配、查找和替换文本的强大工具。在提取网页中的目标数据时,可以使用正则表达式来搜索和匹配特定模式的文本。

以下是一个使用正则表达式提取网页中的目标数据的示例代码:

复制代码
import re

# 网页源代码
html = """
<div class="title">正则表达式教程</div>
<div class="content">这是一篇关于正则表达式的教程。</div>
<div class="author">作者:小明</div>
"""

# 提取标题
title_pattern = r'<div class="title">(.*?)</div>'
title_match = re.search(title_pattern, html)
if title_match:
    title = title_match.group(1)
    print("标题:", title)

# 提取内容
content_pattern = r'<div class="content">(.*?)</div>'
content_match = re.search(content_pattern, html)
if content_match:
    content = content_match.group(1)
    print("内容:", content)

# 提取作者
author_pattern = r'<div class="author">(.*?)</div>'
author_match = re.search(author_pattern, html)
if author_match:
    author = author_match.group(1)
    print("作者:", author)

运行以上代码,将会输出:

复制代码
标题: 正则表达式教程
内容: 这是一篇关于正则表达式的教程。
作者: 小明

在上述代码中,我们使用了re.search()函数来搜索匹配特定模式的文本。正则表达式的模式使用了特定的语法符号,如.表示任意字符,*表示前面的字符可以重复任意次数,.*?表示非贪婪匹配,()表示分组。通过使用分组,我们可以方便地提取匹配到的目标数据。

需要注意的是,当处理复杂的HTML结构时,正则表达式可能无法很好地处理,建议使用专门的HTML解析库(如BeautifulSoup)来提取网页中的数据。

本文由mdnice多平台发布

相关推荐
F_D_Z2 分钟前
【解决办法】网络训练报错AttributeError: module ‘jax.core‘ has no attribute ‘Shape‘.
开发语言·python·jax
前端伪大叔15 分钟前
第29篇:99% 的量化新手死在挂单上:Freqtrade 隐藏技能揭秘
后端·python·github
韩曙亮1 小时前
【人工智能】AI 人工智能 技术 学习路径分析 ① ( Python语言 -> 微积分 / 概率论 / 线性代数 -> 机器学习 )
人工智能·python·学习·数学·机器学习·ai·微积分
喵叔哟2 小时前
6.配置管理详解
后端·python·flask
曾经的三心草2 小时前
基于正倒排索引的Java文档搜索引擎3-实现Index类-实现搜索模块-实现DocSearcher类
java·python·搜索引擎
MOMO陌染2 小时前
Python 饼图入门:3 行代码展示数据占比
后端·python
vvoennvv3 小时前
【Python TensorFlow】 TCN-GRU时间序列卷积门控循环神经网络时序预测算法(附代码)
python·rnn·神经网络·机器学习·gru·tensorflow·tcn
自学互联网3 小时前
使用Python构建钢铁行业生产监控系统:从理论到实践
开发语言·python
无心水4 小时前
【Python实战进阶】7、Python条件与循环实战详解:从基础语法到高级技巧
android·java·python·python列表推导式·python条件语句·python循环语句·python实战案例
xwill*4 小时前
RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION
人工智能·pytorch·python·深度学习