爬虫之re数据清洗

文章目录

  • 一、正则【Regular】
  • 二、重要语法
    • [1、获取内容: 左边(.*?)右边](#1、获取内容: 左边(.*?)右边)
    • [2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串)](#2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串))

一、正则【Regular】

概念: 根据程序员的指示, 从<字符串>中提取数据

结果: 列表

使用频率: 正则跟xpath相比, 正则是弟弟

二、重要语法

1、获取内容: 左边(.*?)右边

代码示例如下:

python 复制代码
import re
data = 'name: 张三; age: 18岁; addr: 北京; height: 180cm'
result = re.findall('; age: (.*?); ', data)
print(result)

运行结果如下:

python 复制代码
['18岁']

注意:re.findall()方法返回结果是列表

2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串)

代码示例如下:

python 复制代码
import re
data = 'python  真 的 \t \n 非常 & * P  好用'
result = re.sub('\t|\n| |&|\*|P', '', data)
print(result)

运行结果如下:

python 复制代码
python真的非常好用
相关推荐
代码探秘者39 分钟前
【算法篇】5.链表
java·数据结构·人工智能·python·算法·spring·链表
杰杰7981 小时前
一文掌握在Flask使用SQLAlchemy(上)
后端·python·flask
Rabbit_QL1 小时前
[Token实战]Flask JWT 登录接口
后端·python·flask
火锅鸡的味道1 小时前
解决AOSP工程Android Studio打开卡顿
android·python·android studio
纤纡.1 小时前
从基础 CNN 到优化模型:食品图像分类全流程对比实战
人工智能·python·深度学习
kronos.荒1 小时前
图论之岛屿数量(python)
python·图论
戴西软件1 小时前
乘用车车门结构侧面碰撞仿真全流程:PreSys + Ansys 实战操作
java·开发语言·python·ui·cae
将冲破艾迪i1 小时前
【AI】部署及调用deepseek和qwen等大模型
人工智能·python·ollama·deepseek
啥咕啦呛1 小时前
跟着AI学Java第1天:Java Lambda与Stream试学包
java·开发语言·python
小周学学学1 小时前
vmware的python自动化:批量克隆虚拟机
运维·服务器·python·自动化·vmware