【基础】每天掌握一个Linux命令 - awk

[【基础】每天掌握一个Linux命令 - awk](#【基础】每天掌握一个Linux命令 - awk)
- 一、工具概述
- 二、安装方式
- 三、核心功能
- 四、基础用法
- - 基本语法
  - 常用选项
  - 内置变量
  - 基本操作示例
  - - [1. 打印文件所有内容](#1. 打印文件所有内容)
    - [2. 打印每行的第一个字段](#2. 打印每行的第一个字段)
    - [3. 指定分隔符为冒号(:)，打印每行的第三个字段](#3. 指定分隔符为冒号(:)，打印每行的第三个字段)
    - [4. 打印包含特定字符串的行](#4. 打印包含特定字符串的行)
    - [5. 打印行数](#5. 打印行数)
    - [6. 打印字段数最多的行](#6. 打印字段数最多的行)
    - [7. 计算所有数字的总和](#7. 计算所有数字的总和)
    - [8. 打印每行的字段数](#8. 打印每行的字段数)
- 五、进阶操作
- - [1. 使用条件表达式筛选数据](#1. 使用条件表达式筛选数据)
  - - [示例数据 (students.txt):](#示例数据 (students.txt):)
    - 打印数学成绩大于80的学生
    - 计算并打印每个学生的平均分
  - [2. 使用循环处理数据](#2. 使用循环处理数据)
  - - 打印每个学生的所有成绩
  - [3. 多文件处理](#3. 多文件处理)
  - [4. 格式化输出](#4. 格式化输出)
  - - 按列对齐输出学生成绩和平均分
  - [5. 内置函数应用](#5. 内置函数应用)
  - - 字符串处理示例：转换为大写
    - 数学函数示例：计算平方根
- 六、实战案例
- - [1. 面试题实战](#1. 面试题实战)
  - - 题目：统计日志文件中每个IP的访问次数，并按次数降序排列
    - 题目：提取日志中状态码为404的URL
  - [2. 生产场景实战](#2. 生产场景实战)
  - [3. 文本处理实战](#3. 文本处理实战)
  - - 案例1：提取HTML标签内容
    - 案例2：批量重命名文件
- 七、注意事项

【基础】每天掌握一个Linux命令 - awk

在Linux的世界里，当你面对海量数据需要筛选、统计时，awk就像是一把精准的手术刀，能迅速定位并处理你需要的信息。简单来说，它是一个强大的文本分析工具，让你无需编写复杂的程序，就能轻松完成数据提取与转换，特别适合处理格式化文本，如日志文件、CSV表格等。

一、工具概述

awk是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。其名称得自于它的创始人 Alfred Aho、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。awk程序设计语言，包括正则表达式、循环、变量等，支持用户自定义函数和动态正则表达式等先进功能，是数据处理和报表生成的理想工具。

二、安装方式

在大多数Linux发行版中，awk通常已经预装。如果需要检查是否安装，可以使用以下命令：

bash 复制代码

awk --version

如果系统中没有安装，可以使用包管理器进行安装：

Ubuntu/Debian系统：

bash 复制代码

sudo apt-get install gawk

CentOS/RHEL系统：

bash 复制代码

sudo yum install gawk

macOS系统：

bash 复制代码

brew install gawk

三、核心功能

功能分类	功能描述
文本处理	逐行读取文本并按指定规则处理，可结合正则表达式进行模式匹配
数据提取	根据字段分隔符分割每行文本，提取特定字段内容
格式化输出	按照指定格式输出处理后的数据，支持对齐、填充等
统计分析	计算总和、平均值、最大值、最小值等统计信息
条件判断	根据条件表达式筛选符合条件的记录
循环处理	支持for、while等循环结构，处理复杂数据
自定义函数	允许用户创建自定义函数扩展功能
文件操作	可以读取和处理多个输入文件，支持输出到文件

四、基础用法

基本语法

bash 复制代码

awk [选项] '模式{动作}' 文件1 文件2 ...

常用选项

选项	描述
-F fs	指定输入文件的字段分隔符，fs为分隔符字符串
-v var=val	定义或设置变量var的值为val
-f file	从文件file中读取awk脚本，而不是在命令行中直接输入
-W option	指定GNU awk特定的选项，如--lint检查语法错误
--help	显示帮助信息

内置变量

变量	描述
$0	当前处理的行的整行内容
1 − 1- 1−n	当前行被分割后的第1到第n个字段
NF	当前行的字段数量
NR	到目前为止已处理的行数
FNR	当前文件已处理的行数
FS	输入字段分隔符，默认是空格或制表符
OFS	输出字段分隔符，默认是空格
RS	输入记录分隔符，默认是换行符
ORS	输出记录分隔符，默认是换行符
FILENAME	当前输入文件的名称
ARGC	命令行参数的数量
ARGV	命令行参数数组

基本操作示例

1. 打印文件所有内容

bash 复制代码

awk '{print}' filename.txt

2. 打印每行的第一个字段

bash 复制代码

awk '{print $1}' filename.txt

3. 指定分隔符为冒号(😃，打印每行的第三个字段

bash 复制代码

awk -F: '{print $3}' /etc/passwd

4. 打印包含特定字符串的行

bash 复制代码

awk '/pattern/{print}' filename.txt

5. 打印行数

bash 复制代码

awk 'END{print NR}' filename.txt

6. 打印字段数最多的行

bash 复制代码

awk '{if(NF>max) max=NF; maxline=$0} END{print maxline}' filename.txt

7. 计算所有数字的总和

bash 复制代码

awk '{sum+=$1} END{print sum}' numbers.txt

8. 打印每行的字段数

bash 复制代码

awk '{print NF}' filename.txt

五、进阶操作

1. 使用条件表达式筛选数据

示例数据 (students.txt):

复制代码

Alice 85 90 78
Bob 76 88 92
Charlie 92 89 95
David 65 70 68

打印数学成绩大于80的学生

bash 复制代码

awk '$2 > 80 {print $1, $2}' students.txt

输出结果:

复制代码

Alice 85
Charlie 92

计算并打印每个学生的平均分

bash 复制代码

awk '{avg=($2+$3+$4)/3; print $1, avg}' students.txt

输出结果:

复制代码

Alice 84.3333
Bob 85.3333
Charlie 92
David 67.6667

2. 使用循环处理数据

打印每个学生的所有成绩

bash 复制代码

awk '{for(i=2; i<=NF; i++) print $1, "subject", i-1, ":", $i}' students.txt

输出结果:

复制代码

Alice subject 1 : 85
Alice subject 2 : 90
Alice subject 3 : 78
Bob subject 1 : 76
Bob subject 2 : 88
Bob subject 3 : 92
Charlie subject 1 : 92
Charlie subject 2 : 89
Charlie subject 3 : 95
David subject 1 : 65
David subject 2 : 70
David subject 3 : 68

3. 多文件处理

假设有两个文件：sales1.txt 和 sales2.txt，内容如下：

sales1.txt:

复制代码

ProductA 100 15
ProductB 200 20

sales2.txt:

复制代码

ProductA 150 18
ProductC 300 25

计算每个产品的总销售额

bash 复制代码

awk '{total[$1] += $2 * $3} END{for(product in total) print product, total[product]}' sales1.txt sales2.txt

输出结果:

复制代码

ProductA 4200
ProductB 4000
ProductC 7500

4. 格式化输出

按列对齐输出学生成绩和平均分

bash 复制代码

awk '{avg=($2+$3+$4)/3; printf "%-10s %3d %3d %3d %6.2f\n", $1, $2, $3, $4, avg}' students.txt

输出结果:

复制代码

Alice      85  90  78  84.33
Bob        76  88  92  85.33
Charlie    92  89  95  92.00
David      65  70  68  67.67

5. 内置函数应用

字符串处理示例：转换为大写

bash 复制代码

awk '{print toupper($1)}' students.txt

输出结果:

复制代码

ALICE
BOB
CHARLIE
DAVID

数学函数示例：计算平方根

bash 复制代码

awk '{print sqrt($2)}' numbers.txt

六、实战案例

1. 面试题实战

题目：统计日志文件中每个IP的访问次数，并按次数降序排列

示例日志 (access.log):

复制代码

192.168.1.1 - - [01/Jan/2023:00:00:01 +0800] "GET /index.html HTTP/1.1" 200 1234
192.168.1.2 - - [01/Jan/2023:00:00:02 +0800] "GET /index.html HTTP/1.1" 200 1234
192.168.1.1 - - [01/Jan/2023:00:00:03 +0800] "GET /about.html HTTP/1.1" 200 1234

解决方案:

bash 复制代码

awk '{count[$1]++} END{for(ip in count) print ip, count[ip]}' access.log | sort -k2 -nr

输出结果:

复制代码

192.168.1.1 2
192.168.1.2 1

题目：提取日志中状态码为404的URL

解决方案:

bash 复制代码

awk '$9 == "404" {print $7}' access.log

2. 生产场景实战

案例1：监控服务器负载

需求: 实时监控服务器的CPU使用率，当超过80%时发出警告

解决方案:

bash 复制代码

top -bn1 | grep "Cpu(s)" | awk '{print $2 + $4}' | awk '{if($1 > 80) print "CPU警告: 当前使用率为", $1, "%"}'

案例2：分析系统日志

需求: 统计/var/log/syslog中出现次数最多的5个程序

解决方案:

bash 复制代码

grep -oP '\[\K[^]]+' /var/log/syslog | awk '{count[$1]++} END{for(prog in count) print count[prog], prog}' | sort -nr | head -5

案例3：处理CSV文件

需求: 从销售数据中计算每个地区的总销售额

示例数据 (sales.csv):

复制代码

Region,Product,Amount
North,ProductA,1000
South,ProductB,1500
North,ProductC,2000

解决方案:

bash 复制代码

awk -F',' 'NR>1 {total[$1]+=$3} END{for(region in total) print region, total[region]}' sales.csv

输出结果:

复制代码

North 3000
South 1500

3. 文本处理实战

案例1：提取HTML标签内容

需求: 从HTML文件中提取所有链接

解决方案:

bash 复制代码

awk -v RS='</a>' '/<a / {match($0, /href="[^"]+"/); print substr($0, RSTART+6, RLENGTH-7)}' index.html

案例2：批量重命名文件

需求: 将所有.jpg文件重命名为JPG后缀

解决方案:

bash 复制代码

ls *.jpg | awk -F. '{print "mv", $0, $1 ".JPG"}' | sh

七、注意事项

字段分隔符问题 ：默认情况下，awk使用空格或制表符作为字段分隔符。如果数据中包含多个连续空格，可能会导致字段分割不准确。此时应使用-F选项明确指定分隔符。
变量区分大小写 ：awk中的变量区分大小写，例如var和Var是不同的变量。
正则表达式陷阱 ：在awk中使用正则表达式时，需要注意元字符的转义问题。例如，要匹配点号(.)，需要使用\.。
性能考虑：虽然awk是处理文本的强大工具，但在处理超大型文件时，性能可能会成为问题。此时应考虑使用更高效的工具或优化awk脚本。
BEGIN和END块：BEGIN块在处理输入文件之前执行，END块在处理完所有输入文件后执行。这两个块是可选的，但在需要初始化变量或输出汇总信息时非常有用。
内置函数限制：不同版本的awk可能支持不同的内置函数。在使用特定函数之前，最好先查阅对应版本的文档。
文件读取顺序：当处理多个输入文件时，awk会按命令行中指定的顺序依次处理每个文件。FNR变量会在每个文件开始时重置，而NR变量会继续递增。
字符串和数值比较：awk会自动识别变量的类型，但在进行比较时需要注意类型转换问题。例如，字符串"10"在数值比较时会被转换为数字10。
命令行参数限制 ：如果需要传递大量参数给awk，可能会遇到系统命令行长度限制的问题。此时应考虑将参数存储在文件中，然后使用-f选项读取。
错误处理 ：在编写复杂的awk脚本时，建议使用-W lint选项检查语法错误，确保脚本的正确性。

【基础】每天掌握一个Linux命令 - awk

目录