爬虫之re数据清洗

文章目录

  • 一、正则【Regular】
  • 二、重要语法
    • [1、获取内容: 左边(.*?)右边](#1、获取内容: 左边(.*?)右边)
    • [2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串)](#2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串))

一、正则【Regular】

概念: 根据程序员的指示, 从<字符串>中提取数据

结果: 列表

使用频率: 正则跟xpath相比, 正则是弟弟

二、重要语法

1、获取内容: 左边(.*?)右边

代码示例如下:

python 复制代码
import re
data = 'name: 张三; age: 18岁; addr: 北京; height: 180cm'
result = re.findall('; age: (.*?); ', data)
print(result)

运行结果如下:

python 复制代码
['18岁']

注意:re.findall()方法返回结果是列表

2、替换数据: re.sub('源数据|源数据', '目标数据', 字符串)

代码示例如下:

python 复制代码
import re
data = 'python  真 的 \t \n 非常 & * P  好用'
result = re.sub('\t|\n| |&|\*|P', '', data)
print(result)

运行结果如下:

python 复制代码
python真的非常好用
相关推荐
懒大王爱吃狼1 小时前
Python教程:python枚举类定义和使用
开发语言·前端·javascript·python·python基础·python编程·python书籍
秃头佛爷2 小时前
Python学习大纲总结及注意事项
开发语言·python·学习
深度学习lover3 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
API快乐传递者4 小时前
淘宝反爬虫机制的主要手段有哪些?
爬虫·python
阡之尘埃6 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
丕羽9 小时前
【Pytorch】基本语法
人工智能·pytorch·python
bryant_meng9 小时前
【python】Distribution
开发语言·python·分布函数·常用分布
m0_5945263011 小时前
Python批量合并多个PDF
java·python·pdf
工业互联网专业11 小时前
Python毕业设计选题:基于Hadoop的租房数据分析系统的设计与实现
vue.js·hadoop·python·flask·毕业设计·源码·课程设计
钱钱钱端11 小时前
【压力测试】如何确定系统最大并发用户数?
自动化测试·软件测试·python·职场和发展·压力测试·postman