grep 的三种变体
很多人不知道,grep 其实有三个版本:
bash
# 基础正则表达式 (Basic Regular Expression)
grep 'pattern' file.txt
# 扩展正则表达式 (Extended Regular Expression)
grep -E 'pattern' file.txt # 等同于 egrep
# Perl 兼容正则表达式 (Perl-Compatible Regular Expression)
grep -P 'pattern' file.txt
关键差异在元字符支持:
| 元字符 | grep | grep -E | grep -P |
|---|---|---|---|
+ |
❌ | ✅ | ✅ |
? |
❌ | ✅ | ✅ |
| ` | ` | ❌ | ✅ |
() |
❌ | ✅ | ✅ |
\d |
❌ | ❌ | ✅ |
\w |
❌ | ❌ | ✅ |
实战建议:默认用 grep -E,需要高级特性(如 \d、\w)时用 grep -P。
正则表达式实战技巧
1. 邮箱匹配的演进
bash
# ❌ 错误:基础正则不支持 +
grep '@.*\.' emails.txt
# ✅ 正确:扩展正则
grep -E '[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}' emails.txt
# ✅ 更简洁:Perl 正则
grep -P '[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,}' emails.txt
2. 行首行尾陷阱
bash
# 匹配以 error 开头的行
grep '^error' log.txt
# 匹配以 error 结尾的行
grep 'error$' log.txt
# ❌ 常见错误:多行模式下 ^ $ 行为不同
echo -e "first\nsecond\nthird" | grep -z '^second'
# -z 将换行符视为 null,^second 匹配不到(因为 second 不在行首)
3. 单词边界匹配
bash
# 匹配 error 作为一个完整单词
grep -w 'error' log.txt # 等同于 grep '\berror\b' log.txt
# 实战:过滤掉 errorHandler、errorLog 等包含 error 的词
grep -w 'error' log.txt | grep -v 'errorHandler'
性能优化:从 5 分钟到 3 秒
回到开头的问题,2GB 日志文件搜索优化:
1. 禁用颜色和行号
bash
# ❌ 慢:每次匹配都计算行号和着色
grep -n --color=always "ERROR" app.log
# ✅ 快:禁用额外处理
grep "ERROR" app.log
性能对比(2GB 文件):
| 选项 | 耗时 |
|---|---|
| 默认 | 3.2s |
-n |
4.8s |
--color=always |
6.1s |
-n --color=always |
8.5s |
2. 使用固定字符串匹配
bash
# ❌ 慢:正则引擎解析
grep 'ERROR' app.log
# ✅ 快:固定字符串匹配(跳过正则解析)
grep -F 'ERROR' app.log
对于简单字符串,-F 能提升 30-50% 性能。
3. 并行处理
bash
# 单线程
grep "ERROR" huge.log
# 多线程(利用所有 CPU 核心)
parallel -j $(nproc) 'grep "ERROR" {} >> errors.txt' ::: $(split -n l/$(nproc) huge.log)
4. 只匹配文件名
bash
# ❌ 慢:输出所有匹配行
grep -r "TODO" ./src/
# ✅ 快:只输出文件名
grep -rl "TODO" ./src/
高级用法实战
1. 上下文匹配
bash
# 显示匹配行及前后 2 行(排查错误上下文)
grep -C 2 "NullPointerException" app.log
# 只显示前面 2 行
grep -B 2 "Exception" app.log
# 只显示后面 2 行
grep -A 2 "Exception" app.log
2. 统计匹配次数
bash
# 统计每个文件中 ERROR 出现次数
grep -c "ERROR" *.log
# 输出示例:
# app.log:1523
# system.log:89
# access.log:0
3. 反向匹配
bash
# 排除注释行
grep -v '^#' config.conf
# 排除空行和注释
grep -v -E '^#|^$' config.conf
4. 递归搜索
bash
# 递归搜索所有 .js 文件
grep -r --include="*.js" "console.log" ./src/
# 排除 node_modules
grep -r --exclude-dir="node_modules" "import" ./src/
常见陷阱
1. 特殊字符转义
bash
# ❌ 错误:. 匹配任意字符
grep 'app.log' file.txt # 会匹配 appblog、appclog 等
# ✅ 正确:转义 .
grep 'app\.log' file.txt
2. 空格处理
bash
# ❌ 错误:空格分隔会被视为多个文件
grep error log file.txt # 搜索 error,文件是 log 和 file.txt
# ✅ 正确:引号包裹
grep 'error log' file.txt
3. 二进制文件
bash
# grep 默认跳过二进制文件,但有时需要搜索
grep -a "pattern" binary_file.bin # -a 将二进制文件视为文本
实战案例:日志分析脚本
bash
#!/bin/bash
# 分析 Nginx 访问日志,统计 5xx 错误
LOG_FILE="/var/log/nginx/access.log"
OUTPUT="errors_$(date +%Y%m%d).txt"
# 1. 筛选 5xx 状态码
# 2. 提取 IP、时间、URL、状态码
# 3. 按状态码分组统计
grep -E '" 5[0-9]{2} ' "$LOG_FILE" | \
awk '{print $1, $4, $7, $9}' | \
sort | uniq -c | sort -rn > "$OUTPUT"
echo "分析完成,结果保存到 $OUTPUT"
grep vs ripgrep
最后提一下 ripgrep (rg),Rust 实现的现代替代品:
bash
# grep 递归搜索
grep -r --include="*.js" "pattern" ./src/
# ripgrep 默认递归,自动过滤 .gitignore
rg -tjs "pattern" ./src/
ripgrep 优势:
- 默认递归搜索
- 自动尊重 .gitignore
- 自动跳过二进制文件
- 性能提升 5-10 倍
- Unicode 支持
但 grep 仍是服务器标配,掌握它很有必要。
相关工具:Linux 命令速查 | 正则表达式测试 | 日志分析工具