R语言:使用Stringr与正则表达式进行字符串处理

字符串处理是数据清洗与分析中必不可少的一环。R语言中的stringr包提供了强大且易用的字符串处理函数,而正则表达式则使得字符串的匹配与替换更为灵活和高效。本文将详细介绍如何使用stringr和正则表达式来处理字符串,并提供相应的示例代码。

一、Stringr 包
1. 创建与查看
  • 查看

    r 复制代码
    library(stringr)
    str_view("Hello World", "World")

    使用str_view可以直观地查看匹配结果,base::writeLines可以显示字符串内容。

  • 转义符 :使用\\进行转义,例如:

    r 复制代码
    # cat()函数:Concatenate and Print(连接和打印)
    cat("This is a backslash: \\")
    复制代码
    This is a backslash: \
  • 原始字符串:可以避免频繁的转义,例如:

    r 复制代码
    raw_string <- r"(\d{3}-\d{2}-\d{4})"
2. 长度与子集
  • 字符串长度

    r 复制代码
    str_length("Hello")
    复制代码
    [1] 5
  • 按位置提取子集

    r 复制代码
    str_sub("Hello World", 1, 5)
    复制代码
    [1] "Hello"
  • 填充字符串

    r 复制代码
    str_pad("Hello", width = 10, side = "both", pad = "-")
    复制代码
    [1] "--Hello---"
3. 检测匹配
  • 检测匹配:返回逻辑值,注意是向量运算;可以与sum()等统计函数合用。

    r 复制代码
    str_detect(c("apple", "banana", "pear"), "a")
    复制代码
    [1] TRUE TRUE TRUE
  • 选择匹配的子集 :对于字符串向量,选出符合匹配的子集,注意与str_sub区分开。

    r 复制代码
    str_subset(c("apple", "banana", "pear"), "a")
    复制代码
    [1] "apple"  "banana" "pear"  
  • 统计匹配次数

    r 复制代码
    str_count(c("apple", "banana", "pear"), "a")
    复制代码
    [1] 1 3 1
  • 查看匹配

    r 复制代码
    str_view(c("apple", "banana", "pear"), "a")
4. 提取匹配
  • 提取第一个匹配项:如果没有匹配则返回NA

    r 复制代码
    str_extract("The price is $123", "\\$\\d+")
    复制代码
    [1] "$123"
  • 提取所有匹配项

    r 复制代码
    str_extract_all("The price is $123 or $456", "\\$\\d+")
    复制代码
    [1] "$123" "$456"
  • 分组匹配

    r 复制代码
    str_match("The price is $123", "(\\$\\d+)")
5. 修改字符串
  • 按位置替换子集

    r 复制代码
    text <- "Hello, world!"
    str_sub(text, 1, 5) <- "Hi"
  • 转换为小写

    r 复制代码
    str_to_lower("Hello")
  • 替换匹配项

    r 复制代码
    str_replace("The price is $123", "\\$\\d+", "$456")
6. 连接和分割
  • 合并字符串

    r 复制代码
    str_c("Hello", "World", sep = " ")
  • 分割字符串

    r 复制代码
    str_split("apples,oranges,pears", ",")
7. 排序与定位字符串
  • 排序字符向量

    r 复制代码
    str_sort(c("banana", "apple", "pear"))
  • 返回排序序号

    r 复制代码
    str_order(c("banana", "apple", "pear"))
  • 定位匹配项

    r 复制代码
    str_locate("The price is $123", "\\$\\d+")
二、正则表达式
1. 基础/精确匹配

最简单的正则表达式是匹配一个精确的字符串,如apple

2. 条件
  • "或"匹配

    r 复制代码
    str_detect(c("apple", "banana", "pear"), "apple|banana")
  • "之一"匹配

    r 复制代码
    str_detect(c("apple", "banana", "pear"), "[aeiou]")
3. 锚点 (始于权力^(power),终于金钱$)
  • 开始匹配

    r 复制代码
    str_detect("apple", "^a")
  • 结尾匹配

    r 复制代码
    str_detect("apple", "e$")
4. 量词
  • 出现0次或1次

    r 复制代码
    str_detect(c("color", "colour"), "colou?r")
  • 出现1次或更多

    r 复制代码
    str_detect(c("apple", "aple"), "ap+le")
5. 特殊字符集合
  • 匹配任何数字(digit)

    r 复制代码
    str_detect("123abc", "\\d")
  • 匹配空白字符(space)

    r 复制代码
    str_detect("a b", "\\s")
6. 分组与回溯引用
  • 分组匹配

    r 复制代码
    str_match("The price is $123", "(\\$\\d+)")
  • 回溯引用

    r 复制代码
    str_replace("abab", "(ab)\\1", "cd")
相关推荐
野生技术架构师1 小时前
掌握SQL窗口函数,轻松处理复杂数据分析
数据库·sql·数据分析
YangYang9YangYan2 小时前
2026大学财会行业学数据分析的价值分析
数据挖掘·数据分析
rainy雨2 小时前
精益数据分析系统功能拆解:如何用精益数据分析解决指标虚高难题与初创期验证场景
大数据·数据库·人工智能·信息可视化·数据挖掘·数据分析·精益工程
新知图书3 小时前
【图书推荐】《Power BI数据分析与可视化实践》
信息可视化·数据挖掘·数据分析
档案宝档案管理3 小时前
档案管理系统:数据可视化+多维度报表,档案管理决策更科学
大数据·信息可视化·数据分析
新知图书4 小时前
【图书推荐】《Python大数据分析师的算法手册》
python·数据分析
babe小鑫5 小时前
2026高职物流工程技术毕业,但没有实习经验,学数据分析的前景分析
数据挖掘·数据分析
CDA数据分析师干货分享5 小时前
【访谈】食品专业转行数据分析师,CDA数据分析师二级备考经验
学习·信息可视化·数据分析·cda证书·cda数据分析师
一个小猴子`5 小时前
快速了解正则表达式
正则表达式
云捷配低代码8 小时前
低代码BI设计器:如何实现多数据源的实时数据分析与可视化?
低代码·数据挖掘·数据分析·自动化·数字化·敏捷流程·数字化转型