R语言——绘制生命曲线图（细胞因子IL5）

绘制生命曲线图（根据细胞因子）

说明
流程
代码
- 加载包
- 读取Excel文件
- 清理数据
- - 重命名列名
  - [处理IL-5中的"<"符号 - 替换为检测下限的一半](#处理IL-5中的"<"符号 - 替换为检测下限的一半)
- 创建生存对象
- 拟合生存曲线
- 绘制生存曲线
补充
- [data $new_column 创建新列/修改现有列](#data$ new_column 创建新列/修改现有列)
- 更健壮的数据清理方法
- 类型转换（转换为数值型）
- 类型转换（转换为数值型0/1）
- [保存 / 加载拟合后的生存曲线对象](#保存 / 加载拟合后的生存曲线对象)
- 保存绘制的生存曲线（如图片或PDF）

R语言的官方环境
R Base
官网下载：
https://www.r-project.org/
包含R的核心解释器和基础功能，适合纯命令行操作。
RStudio
官网下载：
https://www.rstudio.com/products/rstudio/download/

说明

初学者注意

（1）代码中所有符号不能是中文

（2）#表示后面的内容是注释，不生效

（3）括号是成对出现的

关于NA值

在 R 语言中，NA（Not Available）是用于表示缺失值（Missing Value）的特殊值。它表示某个数据点不存在、不可用或未被记录。

NA 在计算中的行为

大部分数学函数（如 sum(), mean()）默认会因 NA 返回 NA

需使用 na.rm = TRUE 忽略 NA 计算
如何检查NA值：

用 is.na()
如何处理NA值：

（1）删除 NA

na.omit()：删除所有含 NA 的行

complete.cases() + 索引：筛选完整数据

（2）替换 NA

均值/中位数填充（适用于数值型数据）

众数填充（适用于分类数据）

插值法（时间序列数据）

（3）计算时忽略 NA

使用 na.rm = TRUE 忽略 NA 计算

流程

（1）加载需要的依赖

（2）读取文件

（3）预处理文件：保障所需数据的完整性、格式规范；

（4）创建对象，拟合生存曲线的数据

（5）绘制曲线

代码

加载包

r 复制代码

library(survival)
library(survminer)
library(dplyr)
library(readxl)

如果提示没有包，就需要下载，例如：不存在叫'survival'这个名称的程序包

install.packages("survival")

读取Excel文件

r 复制代码

data <- read_excel("G:/术前.xlsx", sheet = "术前")

"G:/术前.xlsx"是文件名，"术前"是工作区名称

清理数据

重命名列名

r 复制代码

# 重命名列名
colnames(data) <- c("IL5", "Status", "OS_months")

c表示列名,这里没有写列序号，是按顺序修改前三列，如果要指定修改某列列名，示例如下：

cpp 复制代码

# 方法1：直接通过列索引修改特定列名
colnames(df)[3] <- "name"
colnames(df)[7] <- "data"
colnames(df)[11] <- "time"
# 方法2：使用向量一次性修改多个列名（更简洁）
colnames(df)[c(3,7,11)] <- c("name", "data", "time")

处理IL-5中的"<"符号 - 替换为检测下限的一半

首先找出所有包含"<"的值

r 复制代码

data$IL5_clean <- ifelse(grepl("<", data$IL5), 
                         as.numeric(gsub("[^0-9.]", "", data$IL5))/2,
                         as.numeric(data$IL5))

函数	说明	特点
ifelse(test, yes, no)	test：逻辑测试条件，yes：当test为TRUE时返回的值，no：当test为FALSE时返回的值	可以同时处理整个向量/列，会保持输入数据的结构和属性
grepl("<", data$IL5	在IL5中搜索"<"符号	默认区分大小写，可设置ignore.case=TRUE；多列中查找c("12", "<5", "3<2", "NA")
as.numeric(data$IL5)	将IL5整列的数据强制转换为数值型	无法转换时会生成NA并给出警告
gsub("[^0-9.]", "", data$IL5)	把IL5中所有不是数字和小数点的字符串替换为空	应用场景：非常适合清洗实验数据中的检测限值（如"<0.05"），可用于提取混杂在文本中的数值（如"23.5mg/L"），常用于处理实验室数据或医学检测报告中的数值
data$IL5_clean	如果IL5_clean列不存在，会创建这个新列	详细说明请看补充部分：data$new_column 创建新列/修改现有列

注意：

这个清理过程，可能会有某些值无法被正确转换为数值的情况：比如数据中存在空字符串、非数字字符或其他格式问题

解决方法请看补充部分：更健壮的数据清理方法

检查缺失

有些行的数据不合规，通过下述代码可以进行统计不合规的数据有多少

r 复制代码

sum(is.na(data$IL5_clean))
sum(is.na(data$Status))
sum(is.na(data$OS_months))

sum(is.na(data$ IL5_clean))：统计IL5_clean列的缺失值数量

sum(is.na(data$ Status))：统计Status列的缺失值数量

sum(is.na(data$ OS_months))：统计OS_months列的缺失值数量

输出示例：