从0开始学习R语言--Day38--辛普森多样性指数

面对数据特点为不同种类,但具有不同影响的数据,需要根据需求侧重使用不同的方法。我们一般会将目光集中在某些地方可以做得更好的数据,但前提是要先对数据做分类判断。而相比其他方法,辛普森多样性指数在分类时就已经计算出了哪个数据是优势的概率更大,而其他的方法一般都倾向于判断种类稀有度,即判断类别的数据量,会多出很多计算量。

以下是一个例子:

R 复制代码
set.seed(123)
# 生成数据:5个树种,随机分布
species <- c("Oak", "Pine", "Birch", "Maple", "Redwood")
counts <- sample(10:100, 5, replace = TRUE)  # 每个树种的个体数
names(counts) <- species

# 构建数据框
forest_data <- data.frame(
  Species = species,
  Count = counts
)
print(forest_data)

# 计算原始辛普森指数 (D)
simpson_D <- function(counts) {
  p <- counts / sum(counts)
  sum(p^2)
}

# 计算改进的辛普森指数 (1 - D 或 1/D)
simpson_diversity <- function(counts, inverse = FALSE) {
  D <- simpson_D(counts)
  if (inverse) 1 / D else 1 - D
}

# 示例
D_value <- simpson_D(counts)
diversity_value <- simpson_diversity(counts, inverse = FALSE)

cat("原始辛普森指数 (D):", round(D_value, 4), "\n")
cat("改进的辛普森指数 (1 - D):", round(diversity_value, 4), "\n")
cat("逆辛普森指数 (1/D):", round(1/D_value, 4), "\n")


library(vegan)
# 计算逆辛普森指数 (1/D)
diversity(counts, index = "invsimpson")  # 输出: 4.1389

# 计算 Shannon 熵(对比)
diversity(counts, index = "shannon")    # 输出: 1.423

library(ggplot2)
ggplot(forest_data, aes(x = Species, y = Count, fill = Species)) +
  geom_bar(stat = "identity") +
  labs(title = paste("树种分布 (辛普森多样性 =", round(diversity_value, 2)),
       x = "树种", y = "个体数") +
  theme_minimal()

输出:

R 复制代码
set.seed(123)
# 生成数据:5个树种,随机分布
species <- c("Oak", "Pine", "Birch", "Maple", "Redwood")
counts <- sample(10:100, 5, replace = TRUE)  # 每个树种的个体数
names(counts) <- species

# 构建数据框
forest_data <- data.frame(
  Species = species,
  Count = counts
)
print(forest_data)

# 计算原始辛普森指数 (D)
simpson_D <- function(counts) {
  p <- counts / sum(counts)
  sum(p^2)
}

# 计算改进的辛普森指数 (1 - D 或 1/D)
simpson_diversity <- function(counts, inverse = FALSE) {
  D <- simpson_D(counts)
  if (inverse) 1 / D else 1 - D
}

# 示例
D_value <- simpson_D(counts)
diversity_value <- simpson_diversity(counts, inverse = FALSE)

cat("原始辛普森指数 (D):", round(D_value, 4), "\n")
cat("改进的辛普森指数 (1 - D):", round(diversity_value, 4), "\n")
cat("逆辛普森指数 (1/D):", round(1/D_value, 4), "\n")


library(vegan)
# 计算逆辛普森指数 (1/D)
diversity(counts, index = "invsimpson")  # 输出: 4.1389

# 计算 Shannon 熵(对比)
diversity(counts, index = "shannon")    # 输出: 1.423

library(ggplot2)
ggplot(forest_data, aes(x = Species, y = Count, fill = Species)) +
  geom_bar(stat = "identity") +
  labs(title = paste("树种分布 (辛普森多样性 =", round(diversity_value, 2)),
       x = "树种", y = "个体数") +
  theme_minimal()

输出表明,随机抽取两个个体属于同一物种的概率为0.2337,也就意味着这个数据的多样性较高,用1减去概率的方式能更明显地展现结果。逆指数代表着均匀分布的水平线,如果实际物种数大于该值,则说明存在优势物种,而香浓熵的结果代表物种为中等多样性,满足稀有物种的保护需求。

相关推荐
通信小呆呆6 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
H__Rick6 天前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee6 天前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
Alsn866 天前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e6 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
小雨下雨的雨6 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
cqbzcsq6 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
YangYang9YangYan6 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
guslegend6 天前
理论学习:什么是 Coding Agent?
学习
自传.6 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding