正则表达式通常被用于判断语句中,用来检查某一字符串是否满足某一格式。正则表达式是含有一些具有特殊意义字符的字符串,这些特殊字符称为正则表达式的元字符。例如,"\\d"表示数字0~9中的任何一个,"\d"就是元字符。正则表达式中的元字符及其意义如表1所示。
| 元字符 | 正则表达式中的写法 | 意义 |
|---|---|---|
| . | . | 任意一个字符 |
| \d | \\d | 0~9的任何一个数字 |
| \D | \\D | 任何一个非数字字符 |
| \s | \\s | 空白字符,如'\t'、'\n' |
| \S | \\S | 非空白字符 |
| \w | \\w | 可用于标识符的字符,但不包括"$" |
| \W | \\W | 不可用于标识符的字符 |
| \p{Lower} | \\p{Lower} | 小写字母a~z |
| \p{Upper} | \\p{Upper} | 大写字母A~Z |
| \p{ASCII} | \\p{ASCII} | ASCII字符 |
| \p{Alpha} | \\p{Alpha} | 字母字符 |
| \p{Digit} | \\p{Digit} | 十进制数字,即0~9 |
| \p{Alnum} | \\p{Alnum} | 数字或字母字符 |
| \p{Punct} | \\p{Punct} | 标点符号:!"#$%&'(*+,-.1:;<=>?@[\]^_`{|}~ |
| \p{Graph} | \\p{Graph} | 可见字符:[\p{Alnum}\p{Punct}] |
| \p{Print} | \\p{Print} | 可打印字符:[\p{Graph}\x20] |
| \p{Blank} | \\p{Blank} | 空格或制表符:[\t] |
| \p{Cntrl} | \\p{Cntrl} | 控制字符:[\x00-\x1F\x7F] |
| [表1正则表达式中的元字符] |
说明:
在正则表达式中,"."代表任何一个字符,因此在正则表达式中如果想使用普通意义的点字符".",必须使用转义字符"\"。
在正则表达式中,可以使用方括号括起若干个字符来表示一个元字符,该元字符可代表方括号中的任何一个字符。例如,reg = "[abc]4",这样字符串a4、b4、c4都是和正则表达式匹配的字符串。方括号元字符还可以为其他格式。如:
☑ [^456]:代表4、5、6之外的任何字符。
☑ [a-r]:代表a~r中的任何一个字母。
☑ [a-zA-Z]:可表示任意一个英文字母。
☑ [a-e[g-z]]:代表a~e或g~z中的任何一个字母(并运算)。
☑ [a-0&&[def]]:代表字母d、e、f(交运算)。
☑[a-d&&[^bc]]:代表字母a、d(差运算)。
在正则表达式中允许使用限定修饰符来限定元字符出现的次数。例如,"A*"代表A可在字符串中出现0次或多次。限定修饰符的用法如表2所示。
| 限定修饰符 | 意义 | 示例 |
|---|---|---|
| ? | 0次或1次 | A? |
| * | 0次或多次 | A* |
| + | 一次或多次 | A+ |
| {n} | 正好出现n次 | A{2} |
| {n,} | 至少出现n次 | A{3,} |
| {n,m} | 出现n~m次 | A{2,6} |
| [表2限定修饰符] |
【例1】验证E-mail地址是否"合法"
在项目中创建Judge类,使用正则表达式来判断"aaa@""aaaaa""1111@111ffyu.dfg.com"这3个E-mail地址哪一个是合法的。实例代码如下:
java
public class Judge {
public static void main(String[] args){
//定义要匹配E-mail地址的正则表达式
String regex = "\\w+@\\w+(\\.\\w{2,3})*\\.\\w{2,3}";
String str1 = "aaa@"; //定义要进行验证的字符串
String str2 = "aaaaa";
String str3 = "1111@111ffyu.dfg.com";
if(str1.matches(regex)){ //判断字符串变量是否与正则表达式匹配
System.out.println(str1+"是一个合法的E-mail地址格式");
}
if(str2.matches(regex)){
System.out.println(str2+"是一个合法的E-mail地址格式");
}
if(str3.matches(regex)){
System.out.println(str3+"是一个合法的E-mail地址格式");
}
}
}
运行结果如下:
1111@111ffyu.dfg.com是一个合法的E-mail地址格式
正则表达式分析:
通常情况下E-mail的格式为"X@X.com.cn"。字符X表示任意的一个或多个字符,@为E-mail地址中的特有符号,符号@后还有一个或多个字符,之后是字符".com",也可能后面还有类似".cn"的标记。总结E-mail地址的这些特点,可以书写正则表达式"\\w+@\\w+(\\.\\w{2,3})*\\.\\w{2,3}"来匹配E-mail地址。字符集"\\w"匹配任意字符,符号"+"表示字符可以出现1次或多次,表达式"(\\.\\w{2,3})*"表示形如".com"格式的字符串可以出现0次或多次。而最后的表达式"\\.\\w{2,3}"用于匹配E-mail地址中的结尾字符,如".cn"。