awk小实践3

写在前面
- 基本语法：
- 三剑客的专业比较
实践
- [1. 取出域名并统计排序](#1. 取出域名并统计排序)
- - 解法
- [2. 再上一题的基础上，修改输出格式](#2. 再上一题的基础上，修改输出格式)
- - 解法
- [3. 根据`1`的输出，修改连接符`.`为` $\`](#3. 根据`1`的输出，修改连接符`.`为`$ `)
- - 解法
- [4. 根据`1`的答案，仅匹配出现`t`的url](#4. 根据1的答案，仅匹配出现t的url)
- - 解法
- [5. 匹配access.log文件中的状态码出现次数（状态码在第9列）](#5. 匹配access.log文件中的状态码出现次数（状态码在第9列）)
- - 解法
- [6. 匹配access.log文件中的流量总数（第10列）](#6. 匹配access.log文件中的流量总数（第10列）)
- - 解法

写在前面

基本语法：

bash 复制代码

awk options 'pattern {action}' file
# options：是一些选项，用于控制 awk 的行为。
# pattern：是用于匹配输入数据的模式。如果省略，则 awk 将对所有行进行操作。
# {action}：是在匹配到模式的行上执行的动作。如果省略，则默认动作是打印整行。

awk也支持正则，在pattern内使用/ xxx / 编写正则或需要匹配的内容。

awk用BEGIN{}和END{}，分别用于执行匹配操作前和执行完匹配操作后的action。

shell 复制代码

#常用的参数
-F ：更换匹配词，默认为空格；
$NF ： 最后一列
NR ： 代指为行
-f ：指定awk匹配语句的脚本文件

awk也支持运算符：

匹配符	含义
= += -= = /= %= ^= *=	赋值
?:	C条件表达式
\|\|	逻辑或
&&	逻辑与
~ 和 !~	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接
+ -	加，减
* / %	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ --	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

三剑客的专业比较

在文本处理领域，grep、sed 和 awk 各具特色，适用于不同的场景：

grep 是一个强大的文本搜索工具，它专注于基于模式的文本查找和匹配，适合于执行快速的文本搜索任务。
sed（Stream Editor）是一个流编辑器，它擅长于对匹配到的文本执行编辑操作，如替换、删除和插入文本。
awk 是一个多功能文本处理工具，特别适合于格式化文本和执行复杂的文本处理任务，如数据提取、报表生成和复杂的字段操作。

实践

1. 取出域名并统计排序

shell 复制代码

cat url.txt
http://www.baidu.com/index.html
http://taobao.com/1.html
http://openeuler.org/index.html
http://testtestest.test/index.html
http://taobao.com/3.html
http://e.huawei.com/
http://openeuler.org/index2.html
http://openeuler.org/index3.html
http://openeuler.org/index4.html
http://openeuler.org/index5.html
http://openeuler.org/index6.html

解法

shell 复制代码

awk -F'/+' '{print $2}' url.txt | sort | uniq -c | sort -rn
      6 openeuler.org
      2 taobao.com
      1 www.baidu.com
      1 testtestest.test
      1 e.huawei.com

2. 再上一题的基础上，修改输出格式

shell 复制代码

#输出为：
URL：xxx COUNT：xxx

解法

shell 复制代码

awk -F'/+' '{print $2}' url.txt | sort | uniq -c | sort -rn | awk '{print "URL: " $2  "  \tCOUNT :" $1}'
URL: openeuler.org      COUNT :6
URL: taobao.com         COUNT :2
URL: www.baidu.com      COUNT :1
URL: testtestest.test   COUNT :1
URL: e.huawei.com       COUNT :1

3. 根据`1`的输出，修改连接符`.`为`$`

shell 复制代码

输出为
6 openeuler$org

解法

shell 复制代码

awk -F'/+' '{print $2}' url.txt | sort | uniq -c | sort -rn | awk '{gsub("\\.","$",$2);print $2 "---"$1}'
openeuler$org---6
taobao$com---2
www$baidu$com---1
testtestest$test---1
e$huawei$com---1

#这里使用了\\双反斜杠，因为使用单反斜杠出现报错：
#   awk: cmd. line:1: warning: escape sequence `\.' treated as plain `.'

#sub函数用于替换字符串中的第一个匹配项。
#sub(regexp, SubstitutionReplacement, target)
#regexp是用于匹配正则表达式的模式
#replacement是要替换的字符串
#target是要进行替换操作的字符串。
#gsub是替换所有匹配项

shell 复制代码

#使用sed更方便且效果类似：sed 's|\.|$|g'
 awk -F'/+' '{print $2}' url.txt | sort | uniq -c | sort -rn | sed 's|\.|$|g'
       6 openeuler$org
      2 taobao$com
      1 www$baidu$com
      1 testtestest$test
      1 e$huawei$com

4. 根据`1`的答案，仅匹配出现`t`的url

shell 复制代码

#Output
taobao.com
testtestest.test

解法

shell 复制代码

awk -F'/+' '{print $2}' url.txt | sort | uniq -c | sort -rn | awk '$2~/t/{print $2}'
taobao.com
testtestest.test

5. 匹配access.log文件中的状态码出现次数（状态码在第9列）

解法

shell 复制代码

awk '{print $9}'access.log | sort | uniq -c| sort -rn

6. 匹配access.log文件中的流量总数（第10列）

解法

shell 复制代码

awk '{sum+=$10}END{print sum}' access.log

{sum+=$10}：这是 awk 程序的pattern模式部分。

对于 access.log 文件中的每一行，这个模式都会执行。

$10 表示当前行的第十个字段（字段由空白字符分隔，如空格或制表符）。

sum+=$10 的意思是将第十个字段的值累加到变量 sum 上。如果第十个字段不存在（即该行少于10个字段），awk 会将其视为0。
END：这是一个特殊的模式，在处理完所有行之后执行。在 awk 中，END 模式块用于在所有数据行处理完毕后执行的操作。
{print sum}：这是 END 模式对应的action操作。它将打印变量 sum 的值，即所有第十列字段值的总和。

目录

写在前面

基本语法：

三剑客的专业比较

实践

1. 取出域名并统计排序

解法

2. 再上一题的基础上，修改输出格式

解法

3. 根据1的输出，修改连接符.为$

解法

4. 根据1的答案，仅匹配出现t的url

解法

5. 匹配access.log文件中的状态码出现次数（状态码在第9列）

解法

6. 匹配access.log文件中的流量总数（第10列）

解法

3. 根据`1`的输出，修改连接符`.`为`$`

4. 根据`1`的答案，仅匹配出现`t`的url