## 学习笔记：R 语言中比例字符串的数值转换,如GeneRatio中5/100的处理

01. 应用场景

在生物信息学分析（尤其是使用 clusterProfiler 包）时，富集分析的结果（GO、KEGG）通常会输出一列名为 GeneRatio 或 BgRatio 的数据。

原始格式 ：表现为 "5/100"、"27/1024" 这种字符串。
转换需求 ：为了进行绘图（如气泡图的坐标轴映射）、排序或统计过滤，必须将这种"分数格式"的字符串转换为实数（如 0.05）。

02. 两种方法对比

特性	方法 A：矩阵拆解法 (Matrix)	方法 B：代码解析法 (Eval-Parse)
核心原理	机械地按 `/` 拆分字符串，手动做除法	将字符串视为一条 R 指令直接执行计算
适用场景	追求高效率、处理大规模数据、编写稳健脚本时	追求代码简洁、处理少量数据、快速交互式分析时
优点	性能极高（向量化计算），不依赖复杂解析	代码更短，符合人类直觉（直接"算"出结果）
缺点	代码嵌套深，初学者较难一眼读懂	运行速度慢（解析代码开销大），且存在潜在安全风险

03. 代码解读

方法 A：矩阵拆解法

r 复制代码

ratio <- matrix(as.numeric(unlist(strsplit(as.character(ego.all_picc$GeneRatio), "/"))), ncol=2, byrow=TRUE)
ego.all_picc$GeneRatio <- ratio[,1] / ratio[,2]

strsplit(..., "/") ：将字符串按斜杠拆开，变成列表。例如 "5/100" 变为 c("5", "100")。
unlist(...) & **as.numeric(...)**：将列表摊平并转为数字向量。
matrix(..., ncol=2, byrow=TRUE)：关键步。将一维数字流重新排列为 2 列的矩阵。第一列是分子，第二列是分母。
ratio[,1] / ratio[,2]：直接进行向量化除法运算，得到数值结果。

方法 B：代码解析法 (Tidyverse 风格)

r 复制代码

mutate(GeneRatio_Num = sapply(GeneRatio, function(x) eval(parse(text = x))))

parse(text = x) ：将文本字符串解析成 R 可以理解的"表达式"（Expression）。例如把字符 "5/100" 变成一段代办指令 5/100。
eval(...)：执行这个指令并返回计算结果。
sapply(..., function(x) ...) ：因为 eval 无法一次性处理整个向量，所以必须逐行（逐个元素）遍历处理。

专家建议 ：如果你正在处理数万个细胞的单细胞数据，请务必坚持使用方法 A 或 Tidyverse 的 separate() 函数，以避免 eval(parse) 带来的性能瓶颈。

r 复制代码

library(tidyverse)

ego.all_picc <- ego.all_picc %>%
  # 1. 将 GeneRatio 拆分为分子 (num) 和分母 (den)
  separate(GeneRatio, into = c("num", "den"), sep = "/", convert = TRUE) %>%
  # 2. 直接计算比例
  mutate(GeneRatio = num / den)