《R for Data Science (2e)》免费中文翻译 (第15章) --- Regular expression（1）

写在前面

本系列推文为《R for Data Science (2)》的中文翻译版本。所有内容都通过开源免费的方式上传至Github，欢迎大家参与贡献，详细信息见：
Books-zh-cn 项目介绍：
Books-zh-cn：开源免费的中文书籍社区
r4ds-zh-cn Github 地址：
https://github.com/Books-zh-cn/r4ds-zh-cn
r4ds-zh-cn 网站地址：
https://books-zh-cn.github.io/r4ds-zh-cn/

15.1 介绍

在Chapter14中，你学习了许多处理字符串的实用函数。本章将重点介绍使用 正则表达式(regular expressions) 的函数，这是一种用于描述字符串模式的简洁而强大的语言。术语"regular expression"有些拗口，因此大多数人将其简称为"regex"或"regexp"。

本章将从正则表达式的基础知识以及数据分析中最实用的 stringr 函数开始。随后将拓展你对模式匹配的认知，涵盖七个重要新主题（转义、锚定、字符类、简写字符类、量词、优先级和分组）。接着我们将讨论 stringr 函数可处理的其他模式类型，以及允许调整正则表达式操作的各种"标志"。最后将概述 tidyverse 和 base R 中其他可能使用正则表达式的场景。

15.1.1 先决条件

本章我们将使用来自 tidyverse 核心成员 stringr 和 tidyr 的正则表达式函数，以及 babynames 包的数据。

复制代码

library(tidyverse)
library(babynames)

本章将结合使用简单的内联示例（帮助你理解基础概念）、婴儿姓名数据，以及来自 stringr 的三个字符向量：

fruit 包含80种水果的名称。
words 包含980个常见英语单词。
sentences 包含720个短句。

15.2 模式基础

我们将使用str_view()来理解正则表达式模式的工作原理。在上一章中，我们使用str_view()来更好理解字符串与其打印表示形式之间的区别，现在我们将使用它的第二个参数------一个正则表达式。当提供此参数时，str_view()将仅显示字符串向量中匹配的元素，用<>包围每个匹配项，并尽可能用蓝色高亮显示匹配部分。

最简单的模式由字母和数字组成，它们会精确匹配这些字符：

复制代码

str_view(fruit, "berry")
#>  [6] │ bil<berry>
#>  [7] │ black<berry>
#> [10] │ blue<berry>
#> [11] │ boysen<berry>
#> [19] │ cloud<berry>
#> [21] │ cran<berry>
#> ... and 8 more

字母和数字会精确匹配，因此被称为**字面字符(literal characters)。而大多数标点符号（如., +, *, [, ], ?）具有特殊含义，被称为 元字符(metacharacters)**。例如，.可以匹配任意字符，所以"a."会匹配任何包含字母"a"且后接另一个字符的字符串：

复制代码

str_view(c("a", "ab", "ae", "bd", "ea", "eab"), "a.")
#> [2] │ <ab>
#> [3] │ <ae>
#> [6] │ e<ab>

或者我们可以找出所有包含字母"a"、后接三个任意字母、最后接字母"e"的水果名称：

复制代码

str_view(fruit, "a...e")
#>  [1] │ <apple>
#>  [7] │ bl<ackbe>rry
#> [48] │ mand<arine>
#> [51] │ nect<arine>
#> [62] │ pine<apple>
#> [64] │ pomegr<anate>
#> ... and 2 more

量词(Quantifiers) 控制模式匹配的次数：

? 使模式成为可选项（即匹配 0 次或 1 次）
+ 允许模式重复（即至少匹配一次）
* 允许模式成为可选项或重复（即匹配任意次数，包括0次）

ab? matches an "a", optionally followed by a "b".

str_view(c("a", "ab", "abb"), "ab?")
#> [1] │
#> [2] │
#> [3] │ b

ab+ matches an "a", followed by at least one "b".

str_view(c("a", "ab", "abb"), "ab+")
#> [2] │
#> [3] │

ab* matches an "a", followed by any number of "b"s.

str_view(c("a", "ab", "abb"), "ab*")
#> [1] │
#> [2] │
#> [3] │

字符类(Character classes) 由[]定义，允许您匹配一组字符，例如[abcd]会匹配"a"、"b"、"c"或"d"。您还可以使用^开头来反向匹配：[^abcd]会匹配除"a"、"b"、"c"、"d"以外的任何字符。我们可以利用这个思路来查找包含被元音字母包围的"x"，或被辅音字母包围的"y"的单词：

《R for Data Science (2e)》免费中文翻译 (第15章) --- Regular expression（1）

写在前面

目录

15.1 介绍

15.1.1 先决条件

15.2 模式基础

ab? matches an "a", optionally followed by a "b".

ab+ matches an "a", followed by at least one "b".

ab* matches an "a", followed by any number of "b"s.

15.3 关键函数

15.3.1 检测匹配项

15.3.2 计数匹配项

15.3.3 替换值

15.3.4 提取变量

15.3.5 练习

15.4 模式细节

15.4.1 转义

15.4.2 锚点

15.4.3 字符类