C#正则表达式的基本语法

前言

正则表达式的匹配模式由一系列数字、文字、运算符、字符等的字符组成,根据自己需求设计对应的模式,实现分析、匹配的操作。本文将对正则表达式组成语法进行讲解。

语法规则

正则表达式构建的匹配模式由转义字符、字符类、定位符、分组构造、限定符、反向引用构造、备用构造、替换、杂项构造等组成。

1、特殊字符:正则表达式中已经具有一定特殊意义的字符

字符 描述
^ 匹配输入字符串的开始位置
$ 匹配输入字符串的结束位置
\ 将特殊字符变为普通的字符;指定预定义字符集;定义断言
? 匹配前面的字符零次或一次
+ 匹配前面的字符一次或多次
* 匹配前面的字符零次或多次
. 匹配出换行符外的任意一个字符
- 表示字符的匹配范围
| 匹配以竖线字符分隔的任何一个字符

示例:

cs 复制代码
#region ^
// 模式 ^136
  string pattern = @"^136";
  Console.WriteLine(string.Format("字符串是否以136开头:{0}", Regex.IsMatch("1380000001", pattern)));
// 输出
字符串是否以136开头:false
#endregion

#region $
// 模式 $136
  string pattern = @"$136";
  Console.WriteLine(string.Format("字符串是否以136开头:{0}", Regex.IsMatch("13800010136", pattern)));
// 输出
字符串是否以136结束:true
#endregion

#region -
// 模式 ^[A-Za-z]+$
  Regex regex = new Regex(@"^[A-Za-z]+$");
  Console.WriteLine(string.Format("字符串是否全为英文字母:{0}",regex.IsMatch("Hello123")));
// 输出
字符串是否全为英文字母:false
#endregion

2、转义字符:将特殊字符变为普通的字符。下表列举了一些常用的转义字符:

字符 描述
\a 警报
\b 退格
\e Esc
\f 换页符
\n 换行符
\r 回车符
\t 水平制表符

示例:

cs 复制代码
#region \n
// 模式 \n(\w+) 匹配换行符+)");
  string content = "\nHello\nWorld";
  MatchCollection matches = Regex.Matches(content,@"\n(\w+)");
  foreach (Match match in matches)
  {
    Console.WriteLine(string.Format("{0}",match.Value));
  }
// 结果
Hello
World
#endregion

3、定位符:根据字符位置来进行匹配。下表列举一些常用的定位符:

字符 描述
\A 匹配字符串的开始位置
\Z 匹配字符串的结尾位置或结尾换行之前的位置
\z 匹配字符串的结尾位置
\G 匹配上一个匹配结束的位置
\b 匹配字符的开始或结束的位置
\B 匹配字符的中间位置

示例:

cs 复制代码
#region \A
// 模式 \A136
  string pattern = @"\A136";
  Console.WriteLine(string.Format("字符串是否以136开头:{0}", Regex.IsMatch("136SayHello", pattern)));
// 输出
字符串是否以136开头:true
#endregion

#region \B 
// 模式 \Bin\w+
// \B 不在单词边界处开始匹配
// in  匹配子字符串"in"
// \w+ 匹配一个或多个单词字符
  string content = "starting running ending";
  foreach(Match match in Regex.Matches(content, @"\Bin\w+"))
  {
     Console.WriteLine(" {0} 在字符位置 {1}", match.Value, match.Index);
  }
// 输出
ing 在字符位置 5
ing 在字符位置 13
#endregion

4、字符类:定义一组字符,其中的任一字符均可出现在输入字符串中以便成功匹配。

字符 描述
[character_group] 正字符组指定一个字符列表,任何一个字符可出现在输入字符串中以便进行匹配。
[first-last] 正字符组一个字符范围
[^character_group] 负字符组指定一个字符列表,任何字符不得出现在输入字符串中以便进行匹配。
[^first-last] 负字符组一个字符范围
\w 与任何单词字符匹配
\W 任何非单词字符
\p{name} name 指定的 Unicode 通用类别或命名块中的任何单个字符匹配
\P{name} 与不在 name 指定的 Unicode 通用类别或命名块中的任何单个字符匹配
\s 与空白字符匹配
\S 与任何非空白字符匹配
\d 与任何十进制数字匹配
\D 匹配不是十进制数的任意字符

示例:

cs 复制代码
#region [first-last]
// 模式 \b[A-Z]\w*\b
// \b  在单词边界处开始。
// [A-Z]  匹配从 A 到 Z 的所有大写字符。
// \w*  匹配零个或多个单词字符。
// \b  与字边界匹配。
string content = "A work B Hard Zero Time";
foreach (Match match in Regex.Matches(content, @"\b[A-Z]\w*\b"))
{
    Console.WriteLine("{0}", match.Value);
}
// 输出
A
B
Hard
Zero
Time
#endregion

#region \D
// 模式 ^\D\d{1,5}\D*$
// ^  从输入字符串的开头部分开始匹配。
// \D  匹配非数字字符。
// \d{1,5}  匹配一到五个十进制数字。
// \D*  匹配零个、一个或多个非十进制字符。
// $  匹配输入字符串的末尾部分。
  string content = "A1039C";
  Console.WriteLine("{0}", Regex.IsMatch(content, @"^\D\d{1,5}\D*$"));
// 输出
True
#endregion

5、限定符:指定输入中必须存在字符、组或字符类的多少实例才能找到匹配项。

字符 描述
{n} 恰好匹配 n 次
{n,} 至少匹配 n 次
{n,m} 匹配 n 到 m 次
*? 匹配零次或多次
+? 匹配一次或多次
?? 匹配零次或一次
{n}? 前面的元素恰好匹配 n 次
{n,?} 前面的元素至少匹配 n 次,但次数尽可能少
{n,m}? 匹配上一元素 n 次到 m 次,但次数尽可能少

示例:

cs 复制代码
#region {n,m}
// 模式 ^\D\d{1,3}\D*$
// ^  从输入字符串的开头部分开始匹配。
// \D  匹配非数字字符。
// \d{1,3}  匹配一到五个十进制数字。
// \D*  匹配零个、一个或多个非十进制字符。
// $  匹配输入字符串的末尾部分。
  string content = "B30590C";
  Console.WriteLine("{0}", Regex.IsMatch(content, @"^\D\d{1,3}\D*$"));
// 输出
False
#endregion

6、分组

字符 描述
(subexpression) 捕获匹配的子表达式
(?<name>subexpression) 捕获匹配的子表达式,并允许你按名称或编号访问它
(?<name1 -name2>subexpression) 平衡组定义将删除以前定义的组和存储的定义
(?: subexpression) 不会捕获与子表达式匹配的子字符串
(?imnsx-imnsx:subexpression) 应用或禁用子表达式中指定的选项
(?= subexpression) 定义零宽度正预测先行断言
(?! subexpression) 定义零宽度负预测先行断言
(?> subexpression) 定义零宽度正回顾后发断言

示例:

cs 复制代码
#region (?> subexpression)
// 模式 (?<=\b31)\d{2}\b
// (?<=\b31)  以数字位数"31"开头,则继续匹配。
foreach (Match match in Regex.Matches("3124 2024 1140 3119", @"(?<=\b31)\d{2}\b"))
{
    Console.WriteLine(match.Value);
}
// 结果
// 24
// 19
#endregion
#region (subexpression)
// 模式 (?<=\b31)\d{2}\b
// (?<=\b31)  以数字位数"31"开头,则继续匹配。
foreach (Match match in Regex.Matches("3124 2024 1140 3119", @"(?<=\b31)\d{2}\b"))
{
    Console.WriteLine(match.Value);
}
// 结果
// 24
// 19
#endregion

7、替换

字符 描述
$number 替换按组 number 匹配的子字符串。
${name} 包括替换字符串中由 (name) 指定的命名组所匹配的最后一个子字符串。
$$ 包括替换字符串中的单个"$"文本
$& 包括替换字符串中整个匹配项的副本。
$` 包括替换字符串中的匹配项前的输入字符串的所有文本。
$' 包括替换字符串中的匹配项后的输入字符串的所有文本。
$+ 包括在替换字符串中捕获的最后一个组。
$_ 包括替换字符串中的整个输入字符串。

小结

正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。本文通过一些示例来介绍正则表达式组成模式的常用字符及语法。

相关推荐
weixin_83686952043 分钟前
Java中的机器学习模型集成与训练
java·开发语言·机器学习
IT数据小能手1 小时前
Python中爬虫编程的常见问题及解决方案
开发语言·爬虫·python
大卫的纯爱战士1 小时前
c++指针和引用之高难度(二)习题讲解
开发语言·c++
画饼校长2 小时前
【C++ Primer Plus学习记录】函数的基本知识
开发语言·c++·学习·visualstudio·软件工程
烛九_阴3 小时前
【讨论C++继承】
开发语言·c++
凉拌糖醋鱼4 小时前
Python-PDF文件密码破解小工具
开发语言·python·pdf·密码破解
“αβ”4 小时前
c语言的烫烫烫烫烫??
c语言·开发语言·c++
臻一5 小时前
C++编程(五)单例模式 友元
开发语言·c++·设计模式
哥廷根数学学派5 小时前
基于自组织长短期记忆神经网络的时间序列预测(MATLAB)
开发语言·人工智能·深度学习·神经网络·算法·机器学习·matlab
阿米诺s6 小时前
python本学期所有代码!
开发语言·爬虫·python