system_server或Zygote进程死亡后,Zygote fork出的app子进程销毁流程

下面按 Android 15 / AOSP 主线实现 输出结论、关键代码路径和校验方法。重点回答:system_server 或 Zygote 死亡后,由 Zygote fork 出来的 app 进程如何被销毁

首先给出数据证据,确认system_server和app的process group来自zygote:

复制代码
adb shell ps -ef |grep -Ei "test|system_server|zygote"
root           431     1 0 10:13:32 ?     00:00:01 zygote64
system         785   431 6 10:13:34 ?     00:00:16 system_server
webview_zygote 1144  431 0 10:13:36 ?     00:00:00 webview_zygote
u10_a211      3023   431 0 10:14:21 ?     00:00:00 com.example.test

adb shell cat /proc/785/stat
785 (system_server) S 431 431 0 0 -1 4194624 189396 1902 1086 0 1075 558 0 1 18 -2 237 0 724 18295746560 92123 18446744073709551615 96517870370816 96517870375168 140733830651120 0 0 0 4612 1 1073775864 0 0 0 17 3 0 0 0 0 0 96517870403584 96517870403608 96517893808128 140733830654952 140733830655051 140733830655051 140733830660062 0

adb shell cat /proc/1144/stat
1144 (webview_zygote) S 431 431 0 0 -1 4194624 2618 0 20 0 1 0 0 0 20 0 5 0 916 34071162880 23922 18446744073709551615 96517870370816 96517870375168 140733830651120 0 0 0 4612 1 1073775864 0 0 0 17 3 0 0 0 0 0 96517870403584 96517870403608 96517893808128 140733830654952 140733830655051 140733830655051 140733830660062 0

adb shell cat /proc/3023/stat
3023 (om.example.test) S 431 431 0 0 -1 4194624 18081 0 7 0 76 14 0 0 10 -10 23 0 5476 17149894656 42262 18446744073709551615 96517870370816 96517870375168 140733830651120 0 0 0 4612 1 1073775864 0 0 0 17 2 0 0 0 0 0 96517870403584 96517870403608 96517893808128 140733830654952 140733830655051 140733830655051 140733830660062 0

1. 结论概览

1.1 system_server 死亡后的销毁链路

system_server 是 Zygote fork 出来的关键子进程;Zygote 会监听子进程 SIGCHLD,一旦发现死亡的是 system_server,就会主动 kill 自己。 经典逻辑是 Zygote 的 SigChldHandler 中 waitpid(-1, ..., WNOHANG) 回收子进程,若 pid == gSystemServerPid,则执行 kill(getpid(), SIGKILL) 让 Zygote 自杀。 blog.csdn.net, codeleading.com

随后 init 作为 Zygote 的父进程收到 SIGCHLD,进入 service reap 流程 ;Zygote service 不是 oneshot,因此 init 会对该 service 的进程组执行 SIGKILL 清理,并按 rc 配置重启 Zygote。init 对子进程 SIGCHLD 的监听、ReapAnyOutstandingChildren()、Service::Reap()、KillProcessGroup(SIGKILL) 这一套机制,在 Android init 中用于回收死亡服务并重启非 oneshot 服务。 juejin.cn, cnblogs.com

因此:system_server 死亡 → Zygote 自杀 → init 回收 Zygote service → init kill Zygote 进程组/相关子进程 → Zygote 重启 → system_server 重新 fork → Java framework 重建。 Zygote 和 system_server 在设计上是"共存亡"的关系;system_server 死亡会触发 Zygote 退出,而 Zygote 退出会由 init 处理并重启。 blog.csdn.net, jianshu.com

1.2 Zygote 死亡后的 app 进程销毁链路

Zygote 自身死亡时,app 进程不是靠 AMS 正常逐个 kill 的,因为 system_server/AMS 也会随 Zygote 重启链路一起失效;真正兜底的是 init 对 Zygote service 的 reap/kill process group 逻辑。 在 Service::Reap() 中,非 oneshot service 退出时会调用 KillProcessGroup(SIGKILL),其目的就是杀掉该服务进程组中残留的子进程,防止旧 Zygote fork 出来的进程继续运行。 juejin.cn, cnblogs.com

Android Zygote 启动时会把自己放入独立进程组,ZygoteInit.main() 中存在 Os.setpgid(0, 0) 这类逻辑,Zygote fork 出来的 system_server/app 进程天然和 Zygote 有同源进程关系;旧版本文档和源码分析中也明确指出 Zygote 挂掉时 init 会 kill 其进程组,从而清理 system_server 和 app 子进程。 juejin.cn, blog.csdn.net

简单说:app 进程的销毁不是由新 Zygote 或新 system_server 事后"扫描旧 app 再 kill",而是 Zygote service 死亡瞬间,由 init 的 service reap / process group kill 机制完成大清场。

2. 关键流程图

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 场景 A:system_server 死亡 2 3 system_server crash / kill 4 ↓ 5 Zygote 收到 SIGCHLD 6 ↓ 7 Zygote SigChldHandler waitpid() 8 ↓ 9 发现 pid == gSystemServerPid 10 ↓ 11 Zygote kill(getpid(), SIGKILL) 自杀 12 ↓ 13 init 收到 Zygote SIGCHLD 14 ↓ 15 Service::Reap(zygote) 16 ↓ 17 KillProcessGroup(SIGKILL) 18 ↓ 19 清理旧 Zygote 进程组及其 fork 出来的 app / system_server 残留进程 20 ↓ 21 执行 onrestart 22 ↓ 23 重启 Zygote 24 ↓ 25 新 Zygote fork 新 system_server |
| 1 场景 B:Zygote 自身死亡 2 3 zygote crash / kill 4 ↓ 5 init 收到 SIGCHLD 6 ↓ 7 Service::Reap(zygote) 8 ↓ 9 KillProcessGroup(SIGKILL) 10 ↓ 11 清理旧 Zygote 进程组中的残留子进程 12 ↓ 13 执行 init.zygote*.rc 中 onrestart 命令 14 ↓ 15 重启 zygote / zygote_secondary 16 ↓ 17 新 system_server 启动 18 ↓ 19 系统服务重新建立,app 进程重新按需启动 |

3. 涉及类 / 文件

|-----------------------|--------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 模块 | 关键文件 / 类 | 作用 |
| init | system/core/init/init.cpp | 安装 SIGCHLD 监听,init 主循环处理子进程退出。 juejin.cn, blog.csdn.net |
| init | system/core/init/sigchld_handler.cpp | ReapAnyOutstandingChildren() 回收退出子进程。 juejin.cn, blog.csdn.net |
| init | system/core/init/service.cpp | Service::Reap() 中 kill service 进程组并重启非 oneshot 服务。 cnblogs.com, juejin.cn |
| init rc | system/core/rootdir/init.zygote64.rc / init.zygote64_32.rc | 定义 Zygote service、socket、onrestart、critical 等。 blog.csdn.net, juejin.cn |
| Zygote | frameworks/base/core/java/com/android/internal/os/ZygoteInit.java | Zygote Java 入口,preload、fork system_server、runSelectLoop。 juejin.cn, blog.csdn.net |
| Zygote | frameworks/base/core/java/com/android/internal/os/Zygote.java | 调用 native fork system_server/app。 juejin.cn, cnblogs.com |
| Zygote native | frameworks/base/core/jni/com_android_internal_os_Zygote.cpp | fork、SIGCHLD handler、system_server 死亡时 kill Zygote。 blog.csdn.net, codeleading.com |
| system_server | frameworks/base/services/java/com/android/server/SystemServer.java | system_server Java 入口,启动 AMS/PMS/WMS 等系统服务。 juejin.cn, blog.csdn.net |

4. 关键代码校验点

说明:下面代码片段是为了说明机制,实际 Android 15 代码请以本地 AOSP android-15.0.0_r* tag 为准。AOSP 官方说明源码由 Google 托管在 Git 仓库中,可通过 repo init / repo sync 获取;也可用 cs.android.com 在线浏览。 source.and....google.cn, mirrors.tu...hua.edu.cn

4.1 init.zygote*.rc:Zygote 由 init 管理,不是 oneshot

Android 15 典型 init.zygote64.rc / init.zygote64_32.rc 中,Zygote service 形态如下:

|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 service zygote /system/bin/app_process64 -Xzygote /system/bin \ 2 --zygote --start-system-server --socket-name=zygote 3 class main 4 priority -20 5 user root 6 group root readproc reserved_disk 7 socket zygote stream 660 root system 8 socket usap_pool_primary stream 660 root system 9 onrestart restart audioserver 10 onrestart restart cameraserver 11 onrestart restart media 12 onrestart restart netd 13 onrestart restart wificond 14 task_profiles ProcessCapacityHigh MaxPerformance 15 critical window=${zygote.critical_window.minute:-off} target=zygote-fatal |

校验点:

  • 没有 oneshot:Zygote 死亡后 init 会按常驻 service 处理,进入 restart 流程。 juejin.cn, blog.csdn.net
  • onrestart:Zygote 重启时会联动重启 audioserver、cameraserver、media、netd、wificond 等服务。 blog.csdn.net, juejin.cn
  • critical:Android 15 配置中 Zygote 是 critical service,短时间频繁崩溃会触发更高等级故障处理。 blog.csdn.net, blog.csdn.net

4.2 ZygoteInit:启动时 fork system_server,随后进入 select loop

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 // frameworks/base/core/java/com/android/internal/os/ZygoteInit.java 2 3 if (startSystemServer) { 4 Runnable r = forkSystemServer(abiList, zygoteSocketName, zygoteServer); 5 6 // r == null: parent zygote 7 // r != null: child system_server 8 if (r != null) { 9 r.run(); 10 return; 11 } 12 } 13 14 Log.i(TAG, "Accepting command socket connections"); 15 caller = zygoteServer.runSelectLoop(abiList); |

校验点:

  • Zygote 启动后会先 fork system_server,然后父进程继续 runSelectLoop() 等待 AMS/ProcessList 请求 fork app。 juejin.cn, blog.csdn.net
  • app 进程并不是 system_server 直接 fork() 出来的,而是 system_server 通过 socket 请求 Zygote fork。AOSP 文档也说明 Zygote 作为 root/孵化器,负责生成系统和应用进程,system_server 通过 Unix domain socket 请求 Zygote 创建进程。 source.and....google.cn, blog.csdn.net

4.3 Zygote native:system_server 死亡时 Zygote 自杀

关键逻辑如下:

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 // frameworks/base/core/jni/com_android_internal_os_Zygote.cpp 2 3 static void SigChldHandler(int /*signal_number*/) { 4 pid_t pid; 5 int status; 6 7 while ((pid = waitpid(-1, &status, WNOHANG)) > 0) { 8 if (pid == gSystemServerPid) { 9 ALOGE("Exit zygote because system server (%d) has terminated", pid); 10 kill(getpid(), SIGKILL); 11 } 12 } 13 } |

校验点:

  • Zygote 监听所有子进程 SIGCHLD。 blog.csdn.net, jianshu.com
  • 只有死亡的是 gSystemServerPid 时,Zygote 才会主动 SIGKILL 自己。 blog.csdn.net, codeleading.com
  • 普通 app 进程死亡不会导致 Zygote 自杀;普通 app 死亡由 AMS/ProcessList 维护进程状态,必要时重启对应组件。此点可从 handler 只判断 gSystemServerPid 推出。 blog.csdn.net, jianshu.com

4.4 init:Zygote service 死亡后 kill process group

init 对 service 退出的通用处理如下:

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 // system/core/init/service.cpp 2 3 void Service::Reap(const siginfo_t& siginfo) { 4 if (!(flags_ & SVC_ONESHOT) || (flags_ & SVC_RESTART)) { 5 KillProcessGroup(SIGKILL); 6 } 7 8 pid_ = 0; 9 flags_ &= (~SVC_RUNNING); 10 11 // 非 disabled / reset service 后续进入 restart 12 flags_ |= SVC_RESTARTING; 13 onrestart_.ExecuteAllCommands(); 14 } |

校验点:

  • init 通过 SIGCHLD 知道子服务退出,然后 ReapOneProcess() 找到对应 Service 并调用 Service::Reap()。 juejin.cn, blog.csdn.net
  • 对非 oneshot service,Service::Reap() 会调用 KillProcessGroup(SIGKILL),用于杀掉该服务进程组中的残留进程。 cnblogs.com, juejin.cn
  • Zygote service 没有 oneshot,所以 Zygote 死亡会走 kill process group + restart 逻辑。 blog.csdn.net, juejin.cn

5. app 进程到底在哪里被 kill?

5.1 不是 AMS 正常 kill

当 system_server 已经挂了,AMS 自身也不存在了;因此不可能依赖 AMS 按 ProcessRecord 一个个执行正常 kill。system_server 是承载 AMS/PMS/WMS 等 Java framework 服务的核心进程,死亡后 framework 控制面已经失效。 blog.csdn.net, segmentfault.com

5.2 不是 Zygote 自己遍历 kill app

Zygote 的 SIGCHLD handler 主要做的是回收子进程并判断 gSystemServerPid;发现 system_server 死亡后,Zygote 选择 kill(getpid(), SIGKILL) 自杀,而不是遍历所有 app pid。 blog.csdn.net, jianshu.com

5.3 真正兜底:init kill Zygote service 进程组

Zygote 被 kill 后,init 作为其父进程收到 SIGCHLD,进入 Service::Reap();Zygote 非 oneshot,因此 init 会 KillProcessGroup(SIGKILL) 清理旧 Zygote service 相关进程,达到销毁旧 app 进程的目的。 cnblogs.com, juejin.cn

6. 本地代码校验命令

建议在 Android 15 源码根目录执行:

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 # 1. 确认源码 tag 2 repo manifest -r | grep -E "android-15|platform/frameworks/base|platform/system/core" 3 4 # 2. 校验 zygote rc 5 grep -R "service zygote" -n system/core/rootdir/init.zygote*.rc 6 grep -R "critical window=.*zygote-fatal" -n system/core/rootdir/init.zygote*.rc 7 grep -R "onrestart restart" -n system/core/rootdir/init.zygote*.rc 8 9 # 3. 校验 ZygoteInit fork system_server 10 grep -R "forkSystemServer" -n frameworks/base/core/java/com/android/internal/os/ZygoteInit.java 11 grep -R "runSelectLoop" -n frameworks/base/core/java/com/android/internal/os/ZygoteInit.java 12 13 # 4. 校验 native SIGCHLD / system_server death 14 grep -R "gSystemServerPid" -n frameworks/base/core/jni/com_android_internal_os_Zygote.cpp 15 grep -R "Exit zygote because system server" -n frameworks/base/core/jni/com_android_internal_os_Zygote.cpp 16 grep -R "SIGCHLD" -n frameworks/base/core/jni/com_android_internal_os_Zygote.cpp 17 18 # 5. 校验 init 子进程回收 19 grep -R "InstallSignalFdHandler" -n system/core/init 20 grep -R "ReapAnyOutstandingChildren" -n system/core/init 21 grep -R "Service::Reap" -n system/core/init 22 grep -R "KillProcessGroup" -n system/core/init |

如果第 4 步能查到 gSystemServerPid、waitpid、kill(getpid(), SIGKILL) 相关代码,第 5 步能查到 Service::Reap() 中对非 oneshot service 调用 KillProcessGroup(SIGKILL),就可以确认本文结论成立。

7. 最终结论

Android 15 上,system_server 死亡后,Zygote 会通过 SIGCHLD 发现 gSystemServerPid退出,然后主动 SIGKILL 自己;Zygote 死亡后,init 会回收 Zygote service,并对该 service 的进程组执行 SIGKILL 清理,旧 Zygote fork 出来的 app 进程随之被销毁。之后 init 根据 init.zygote*.rc重启 Zygote,新 Zygote 再 fork 新 system_server,系统服务重新建立。

一句话总结:

|----------------------------------------------------------------------------------------------------------------------------------------|
| 1 system_server 死亡 2 → Zygote 自杀 3 → init reap zygote 4 → init KillProcessGroup(SIGKILL) 5 → 旧 app 进程被清理 6 → Zygote / system_server 重启 |
| 1 Zygote 直接死亡 2 → init reap zygote 3 → init KillProcessGroup(SIGKILL) 4 → 旧 app 进程被清理 5 → Zygote / system_server 重启 |