一.程序和进程以及线程
内核功用:进程管理、内存管理、文件系统、网络功能、驱动程序、安全功能等
对于所有的操作系统,都有基本的功能
1.程序
保存在硬盘、光盘等介质中的可执行代码和数据(硬盘上躺着)
静态保存的代码
执行特定任务的一串代码
2.进程
什么是进程?
① 硬件资源分配的最小单位
② 动态执行的代码(加载到内存中运行)
③ 父、子进程(每个程序可以创建一个或多个进程)
④ 进程是程序的副本,进程是有生命周期的
⑤ 在CPU及内存中运行的程序代码
⑥ 进程只接受任务,不处理任务
init 第一个进程,从centos7 以后为systemd
组成:
进程一般由程序、数据集合和进程控制块三部分组成
程序:用于描述进程要完成的功能,是控制进程执行的指令集
数据集合:是程序在执行时所需要的数据和工作区
程序控制块(简称PCB):包含进程的描述信息和控制信息,是进程存在的唯一标志
特征:
-
动态性:进程是程序的一次执行过程,是临时的,有生命期的,是动态产生,动态消亡的;
-
并发性:任何进程都可以同其他进程一起并发执行;
-
独立性:进程是系统进行资源分配和调度的一个独立单位;
-
结构性:进程由程序、数据和进程控制块三部分组成。
3.线程
线程是程序执行中一个单一的顺序控制流程,是程序执行流的最小单元,是处理器调度和分派的基本单位。一个进程可以有一个或多个线程,各个线程之间共享程序的内存空间(也就是所在进程的内存空间)
4.协程
协程,英文Coroutines,是一种基于线程之上,但又比线程更加轻量级的存在,这种由程序员自己写程序来管理的轻量级线程叫做『用户空间线程』,具有对内核来说不可见的特性。
特点
线程的切换由操作系统负责调度,协程由用户自己进行调度,因此减少了上下文切换,提高了效率。
5.进程-线程 区别
线程是程序执行的最小单位,而进程是操作系统分配资源的最小单位;
一个进程由一个或多个线程组成,线程是一个进程中代码的不同执行路线;
进程之间相互独立,但同一进程下的各个线程之间共享程序的内存空间(包括代码段、数据集、堆等)及一些进程级的资源(如打开文件和信号),某进程内的线程在其它进程不可见;
调度和切换:线程上下文切换比进程上下文切换要快得多。
小问题:
如何确定一个程序是多线程还是单线程?
去看进程的详细状态
cat /proc/该程序的pid号文件夹/status
① grep -i threads /proc/1152/status threads(线程) -i (不区分大小写)
② prtstat 程序的pid号文件夹 打印进程统计信息
6.进程使用内存的问题
内存泄漏:Memory Leak
指程序中用malloc或new申请了一块内存,但是没有用free或delete将内存释放,导致这块内存一直处于占用状态
内存溢出:Memory Overflow
指程序申请了10M的空间,但是在这个空间写入10M以上字节的数据,就是溢出,类似红杏出墙
内存不足:OOM
OOM 即 Out Of Memory,"内存用完了",在情况在java程序中比较常见。系统会选一个进程将之杀死,在日志messages中看到类似下面的提示
Jul 10 10:20:30 kernel: Out of memory: Kill process 9527 (java) score 88 or sacrifice child
当JVM因为没有足够的内存来为对象分配空间并且垃圾回收器也已经没有空间可回收时,就会抛出这个error,因为这个问题已经严重到不足以被应用处理
OOM 原因:
给应用分配内存太少:比如虚拟机本身可使用的内存(一般通过启动时的JVM参数指定)太少,
应用用的太多,并且用完没释放,浪费了,此时就会造成内存泄露或者内存溢出。
使用的解决办法:
1,限制java进程的max heap,并且降低java程序的worker数量,从而降低内存使用
2,给系统增加swap空间
小问题:
进程健康
OOM 清理内存
cpu利用率过高 清进程
7.进程状态
基本状态:
-
创建状态:进程在创建时需要申请一个空白PCB(process control block进程控制块),向其中填写控制和管理进程的信息,完成资源分配。如果创建工作无法完成,比如资源无法满足,就无法被调度运行,把此时进程所处状态称为创建状态。
-
就绪状态:进程已准备好,已分配到所需资源,只要分配到CPU就能够立即运行。
-
执行状态:进程处于就绪状态被调度后,进程进入执行状态。
-
阻塞状态:正在执行的进程由于某些事件(I/O请求,申请缓存区失败)而暂时无法运行,进程受到阻塞。在满足请求时进入就绪状态等待系统调用。
-
终止状态:进程结束,或出现错误,或被系统终止,进入终止状态,无法再执行。
更多状态:
-
运行态:running
-
就绪态:ready
-
睡眠态:分为两种,可中断:interruptable,不可中断:uninterruptable
-
停止态:stopped,暂停于内存,但不会被调度,除非手动启动
-
僵死态:zombie,僵尸态,结束进程,父进程结束前,子进程不关闭,杀死父进程可以关闭僵死态 的子进程
僵尸进程消除方法:
①找到僵尸进程的父进程然后将父进程杀死,这样就会结束掉僵尸进程,但是这样做存在风险,因为该父进程下面其它所有的进程都会被杀掉。
②假如已经杀死了僵尸进程的父进程,但是僵尸进程还没,这时,僵尸进程会变成孤儿进程,孤儿进程会被init进程收养,init进程会对孤儿进程完成收养工作。
③假如僵尸进程的父进程是init进程,那不能杀init进程,杀了将整个系统就挂了,那就可以实现"曲线救国"的方式,将僵尸进程挂起,挂起之后,什么都做不了。
孤儿进程:
解释: 一个父进程退出,而它的一个或多个子进程还在运行,那么这些子进程将成为孤儿进程,孤儿进程将被init进程所收养,并由init进程对他们完成状态收集工作。
解释:
小问题:
如何过滤僵尸进程?
ps aux | grep Z
ps aux | grep -v grep | grep Z
如何结束僵尸进程
重启最快
二.查看进程统计信息
1.ps-查看静态的进程统计信息
常用选项:
|----|----------------------|
| 选项 | 功能 |
| a | 显示终端上的所有进程,包括其它用户的进程 |
| u | 表示列出进程的用户 |
| x | 显示所有终端的进程 |
|----------------|---------------------|
| -e | 显示系统内的所有进程信息 |
| -l | 使用长(long)格式显示进程信息 |
| -f | 使用完整的(full)格式显示进程信息 |
| k | --sort 属性 | 对属性排序,属性前加 - 表示倒序 |
| o 属性 | 选项显示定制的信息 |
| | |
| | |
实例:
找到cpu利用率最高的进程 ps aux k -%cpu
找到内存mem占用最高的进程ps aux k -%mem
o 选项 显示定制的信息 不能和u一起用
ps aux
|----------|-----------------------------------|
| 表头 | 含义 |
| USER | 该进程是由哪个用户产生的 |
| PID | 进程的 ID |
| %CPU | 该进程占用 CPU 资源的百分比,占用的百分比越高,进程越耗费资源 |
| %MEM | 该进程占用物理内存的百分比,占用的百分比越高,进程越耗费资源 |
| VSZ | 该进程占用虚拟内存的大小,单位为 KB |
| RSS | 该进程占用实际物理内存的大小,单位为 KB |
| TTY | 该进程是在哪个终端运行的 |
| STAT | 进程状态 |
| START | 该进程的启动时间 |
| TIME | 该进程占用 CPU 的运算时间,注意不是系统时间 |
| COMMAND | 产生此进程的命令名 |
TTY
该进程是在哪个终端运行的。其中,tty1 ~ tty7 代表本地控制台终端(可以通过 Alt+F1 ~ F7 快捷键切换不同的终端),tty1~tty6 是本地的字符界面终端,tty7 是图形终端。pts/0 ~ 255 代表虚拟终端,一般是远程连接的终端,第一个远程连接占用 pts/0,第二个远程连接占用 pts/1,依次増长。?代表和终端无关,系统进程。
STAT 进程状态 常见的状态有以下几种:
|--------|----------------------------|
| -D | 不可被唤醒的睡眠状态,通常用于 I/O 情况 |
| -R | 该进程正在运行 |
| -S | 该进程处于睡眠状态,可被唤醒 |
| -T | 停止状态,可能是在后台暂停或进程处于除错状态 |
| -Z | 僵尸进程。进程已经中止,但是还是占用硬件资源 |
| -W | 内存交互状态(从 2.6 内核开始无效) |
| -X | 死掉的进程(应该不会出现) |
| -< | 高优先级(以下状态在 BSD 格式中出现) |
| -N | 低优先级 |
| -L | 被锁入内存 |
| -s | 包含子进程 |
| -l | 多线程 |
| -+ | 位于后台 |
ps -elf 命令输出信息
|-------|-------------------------------------------------------|
| 表头 | 含义 |
| F | 进程标志,说明进程的权限,常见的标志有两个: 1:进程可以被复制,但是不能被执行;4:进程使用超级用户权限 |
| S | 进程状态。具体的状态和"psaux"命令中的 STAT 状态一致 |
| UID | 运行此进程的用户的 ID |
| PID | 进程的 ID |
| PPID | 父进程的 ID |
| C | 该进程的 CPU 使用率,单位是百分比 |
| PRI | 进程的优先级,数值越小,该进程的优先级越高,越早被 CPU 执行;系统定义不可以人为修改 |
| NI | 进程的优先级,数值越小,该进程越早被执行;可以人为修改 |
| ADDR | 该进程在内存的哪个位置 |
| SZ | 该进程占用多大内存 |
| WCHAN | 该进程是否运行。"-"代表正在运行 |
| STIME | 进程开始的时间 |
| TTY | 该进程由哪个终端产生 |
| TIME | 该进程占用 CPU 的运算时间,注意不是系统时间 |
| CMD | 产生此进程的命令名 |
修改NI值注意事项:
NI 范围是 -20~19
普通用户调整 NI 值的范围是 0~19,而且只能调整自己的进程
普通用户只能调高 NI 值,而不能降低。如原本 NI 值为 0,则只能调整为大于 0
只有 root 用户才能设定进程 NI 值为负值,而且可以调整任何用户的进程
查看进程信息 prtstat
小问题:
现在你中了病毒,造成你的cpu利用率过高,ps aux 找到过高的进程
kill 杀掉他,过一段时间又起来了
pid 号
去到 /proc/pid号文件夹/exe
exe 是软连接指向真正的程序 把病毒程序文件删掉
2.top-动态查看进程信息
|----------|-----------------------------------------|
| 选项 | 作用 |
| -d 秒数 | 指定 top 命令每隔几秒更新。默认是 3 秒 |
| -b | 使用批处理模式输出。一般和"-n"选项合用,用于把 top 命令重定向到文件中 |
| -n次数 | 指定 top 命令执行的次数。一般和"-"选项合用 |
| -p 进程PID | 仅查看指定 ID 的进程 |
| -s | 使 top 命令在安全模式中运行,避免在交互模式中出现错误 |
| -u 用户名 | 只监听某个用户的进程 |
在 top 命令的显示窗口中,还可以使用如下按键,进行一下交互操作
|-------|--------------------------------------------|
| 选项 | 作用 |
| ? 或 h | 显示交互模式的帮助 |
| c | 按照 CPU 的使用率排序,默认就是此选项 |
| M | 按照内存的使用率排序 |
| N | 按照 PID 排序 |
| T | 按照 CPU 的累积运算时间排序,也就是按照 TIME+ 项排序 |
| k | 按照 PID 给予某个进程一个信号。一般用于中止某个进程,信号 9 是强制中止的信号 |
| r | 按照 PID 给某个进程重设优先级(Nice)值 |
| q | 退出 top 命令 |
首部信息提示
|--------------------------------------------------------|
| 排序: P:已占据的CPU百分比,%CPU M:占据内存百分比 %MEM T:累积占据CPU时长 TIME+ |
| uptime信息:l命令 |
| tasks及cpu信息:t命令 |
| cpu分别显示:1 (数字) |
| memory信息:m命令 |
| 退出命令:q |
| 修改刷新时间间隔:s |
| 终止指定进程:k |
| 保存文件:W |
| |
第一行为任务队列信息
|--------------------------------|---------------------------------------------------------------------------------------------------------------------------------|
| 内容 | 说明 |
| 15:21:55 | 系统当前时间 |
| up 3:34 | 系统的运行时间 已经运行3小时34分钟 |
| 6 users | 当前登录了6个用户 |
| load average: 0.00, 0.01, 0.05 | 系统在之前 1 分钟、5 分钟、15 分钟的平均负载。如果 CPU 是单核的,则这个数值超过 1 就是高负载:如果 CPU 是四核的,则这个数值超过 4 就是高负载 (这个平均负载完全是依据个人经验来进行判断的,一般认为不应该超过服务器 CPU 的核数) |
第二行为进程信息
|------------------|--------------------------|
| 内容 | 说明 |
| Tasks: 252 total | 系统中的进程总数 |
| 1 running | 正在运行的进程数 |
| 251 sleeping | 睡眠的进程数 |
| 0 stopped | 正在停止的进程数 |
| 0 zombie | 僵尸进程数。如果不是 0,则需要手工检查僵尸进程 |
第三行为 CPU 信息
|-----------------|------------------------------------------------------------------|
| 内容 | 说明 |
| %Cpu(s): 0.0 us | 用户模式占用的 CPU 百分比 个人用户开启的进程占用的 cpu 率 |
| 0.1 sy | 系统模式占用的 CPU 百分比 |
| 0.0 ni | 改变过优先级的用户进程占用的 CPU 百分比 |
| 99.9 id | 空闲 CPU 占用的 CPU 百分比 |
| 0.0 wa | 等待输入/输出的进程占用的 CPU 百分比 |
| 0.0 hi | 硬中断请求服务占用的 CPU 百分比 |
| 0.0 si | 软中断请求服务占用的 CPU 百分比 |
| 0.0 st | st(steal time)意为虚拟程序占用 cpu 时间百分比,就是当有虚拟机时,虚拟 CPU 等待实际 CPU 的时间百分比 |
第四行为物理内存信息
|-------------------------|------------------------------------------------|
| 内容 | 说明 |
| KiB Mem : 7990068 total | 物理内存的总量,单位为KB |
| 4929268 free | 己经使用的物理内存数量 |
| 1132696 used | 空闲的物理内存数量。我们使用的是虚拟机,共分配了 628MB内存,所以只有53MB的空闲内存 |
| 1928104 buff/cache | 作为缓冲的内存数量 |
第五行为交换区(swap)信息
|-------------------------|----------------|
| 内容 | 说明 |
| KiB Swap: 5238780 total | 交换分区(虚拟内存)的总大小 |
| 5238780 free | 空闲交换分区的大小 |
| 0 used | 已经使用的交换分区的大小 |
| 6537040 avail Mem | 作为缓存的交换分区的大小 |
top 命令的第二部分输出,主要是系统进程信息,各个字段的含义:
|---------|----------------------|
| 指令 | 说明 |
| PID | 进程的 ID |
| USER | 该进程所属的用户 |
| PR | 优先级,数值越小优先级越高 |
| NI | 优先级,数值越小、优先级越高 |
| VIRT | 该进程使用的虚拟内存的大小,单位为 KB |
| RES | 该进程使用的物理内存的大小,单位为 KB |
| SHR | 共享内存大小,单位为 KB |
| S | 进程状态 |
| %CPU | 该进程占用 CPU 的百分比 |
| %MEM | 该进程占用内存的百分比 |
| TIME+ | 该进程共占用的 CPU 时间 |
| COMMAND | 进程的命令名 |
htop 增强版的top
3.pgrep - 根据特定条件查询进程PID信息
|---------|------------|
| 选项 | 说明 |
| -U | 指定用户 |
| -l | 显示进程名 |
| -a | 显示完整格式的进程名 |
| -P pid号 | 显示指定进程的子进程 |
小问题:
我想知道当前系统root一共运行了多少个进程
ps aux |grep -v grep | grep root |wc -l
pgrep -U root |wc -l
4.pstree 进程树
以树形结构列出进程信息
|--------|------------------------------|
| 选项 | 说明 |
| -a | 显示启动每个进程对应的完整指令,包括启动进程的路径、参数 |
| -p | 显示pid |
| -u | 显示用户切换 |
| -H pid | 高亮显示指定进程及其前辈进程 |
查看进程号为1214的进程
查看用户的进程
显示启动每个进程对应的完整指令
显示pid
显示用户切换
高亮显示指定进程和其前辈进程
5.lsof 列举系统中已经被打开的文件
格式: lsof [选项]
|--------|-------------------|
| 选项 | 功能 |
| -c 字符串 | 只列出以字符串开头的进程打开的文件 |
| +d 目录名 | 列出某个目录中所有被进程调用的文件 |
| -u 用户名 | 只列出某个用户的进程打开的文件 |
| -p pid | 列出某个PID进程打开的文件 |
| -i :端口 | 查看指定端口 |
查询系统中所有进程调用的文件
lsof找回误删的文件,前提是有人在使用
cat查看文件,发现已经修复好了!!
删除文件
① 删除文件依旧不能放出空间,彻底杀掉进程
② 直接删
6.vmstat 监控系统资源 虚拟资源
如果你想动态的了解一下系统资源的使用状况,以及查看当前系统中到底是哪个环节最占用系统资源,就可以使用 vmstat 命令。
vmstat命令,是 Virtual Meomory Statistics(虚拟内存统计)的缩写,可用来监控 CPU 使用、进程状态、内存使用、虚拟内存使用、硬盘输入/输出状态等信息。
|------------|---------------------------------------------------------------------------------------------------|
| 选项 | 含义 |
| -fs | -f:显示从启动到目前为止,系统复制(fork)的程序数,此信息是从 /proc/stat 中的 processes 字段中取得的 -s:将从启动到目前为止,由一些事件导致的内存变化情况列表说明 |
| -S 单位 | 令输出的数据显示单位,例如用 K/M 取代 bytes 的容量 |
| -d | 列出硬盘有关读写总量的统计表 |
| -p 分区设备文件名 | 查看硬盘分区的读写情况 |
|--------|-----------------------------------------------------------------------------------------------------------------------------|
| 字段 | 含义 |
| procs | 进程信息字段: -r:等待运行的进程数,数量越大,系统越繁忙。 -b:不可被唤醒的进程数量,数量越大,系统越繁忙。 |
| memory | 内存信息字段: -swpd:虚拟内存的使用情况,单位为 KB。 -free:空闲的内存容量,单位为 KB。 -buff:缓冲的内存容量,单位为 KB。-cache:缓存的内存容量,单位为 KB。 |
| swap | 交换分区信息字段: -si:从磁盘中交换到内存中数据的数量,单位为 KB。 -so:从内存中交换到磁盘中数据的数量,单位为 KB。这两个数越大,表明数据需要经常在磁盘和内存之间进行交换,系统性能越差。 |
| io | 磁盘读/写信息字段: -bi:从块设备中读入的数据的总量,单位是块。 -bo:写到块设备的数据的总量,单位是块。这两个数越大,代表系统的 I/O 越繁忙。 |
| system | 系统信息字段: -in:每秒被中断的进程次数。 -cs:每秒进行的事件切换次数。这两个数越大,代表系统与接口设备的通信越繁忙。 |
| cpu | CPU信息字段: -us:非内核进程消耗 CPU 运算时间的百分比。 -sy:内核进程消耗 CPU 运算时间的百分比。 -id:空闲 CPU 的百分比。 -wa:等待 I/O 所消耗的 CPU 百分比。 -st:被虚拟机所盗用的 CPU 百分比。 |
7.iostat 可以提供更丰富的IO性能状态数据
|----|---------------|
| 选项 | 说明 |
| -c | 只显示CPU行 |
| -d | 显示设备(磁盘)使用状态 |
| -k | 以千字节为单位显示输出 |
| -t | 在输出中包括时间戳 |
| -x | 在输出中包括扩展的磁盘指标 |
只看sda磁盘
8.free - 查看内存
|------------|------------------|
| 选项 | 说明 |
| -h | 以友好的方式显示内存的使用情况 |
| -b | 以Byte为单位显示内存使用情况 |
| -k | 以KB为单位显示内存使用情况 |
| -m | 以MB为单位显示内存使用情况 |
| -g | 以GB为单位显示内存使用情况 |
| -o | 不显示缓冲区调节列 |
| -s<间隔秒数> | 持续观察内存使用状况 |
| -t | 显示内存总和列 |
| -V | 显示版本信息 |
参数解释:
参数 | 解释 |
---|---|
taotal | 总计物理(swap)内存的大小 |
used | 已使用物理内存(swap)的大小 |
free | 可用的物理内存(swap)大小 |
shared | 多个进程共享的内存总额 |
buff/cache | 磁盘的缓存大小 |
available | 可以被新应用程序使用的内存大小 |
free -h
free -m 以m为单位查看
小问题:
服务器开启一周后非常卡顿,怎么解决呢?
缓存太多,清理缓存
echo 3 > /proc/sys/vm/drop_caches 3 是级别 清理的比较彻底
9.iotop 监视磁盘I/O iftop 检测网络流量
iotop 监视磁盘I/O
iftop 检测网络流量
10.uptime 系统运行了多久时间
11.mpstat 显示CPU相关统计
1秒一次,看3次
12.dstat 系统资源统计
13.pidof 根据名字找到pid号
14.pmap 查看进程占用内存的详细信息
15.webmin
Webmin是功能最强大的基于Web的Unix系统管理工具。管理员通过浏览器访问Webmin的各种管理功能并完成相应的管理动作。
Webmin 让您能够在远程使用支持 HTTPS (SSL 上的 HTTP)协议的 Web 浏览器通过 Web 界面管理您的主机。这在保证了安全性的前提下提供了简单深入的远程管理。这使得 Webmin 对系统管理员非常理想,因为所有主流平台都有满足甚至超出上述需求的 Web 浏览器。而且,Webmin 有其自己的"Web 服务器",因此不需要运行第三方软件(比如 Web服务器)。万事具备。Webmin 的模块化架构允许您在需要时编写您自己的配置模块。除了在此介绍的模块之外,Webmin 还包括许多模块。尽管我们将主要关注网络服务,但是您会看到,几乎您系统的每一部分都能够通过 Webmin 来配置和管理,有时候可以在Linux环境下安装此软件。