R语言【CoordinateCleaner】——cc_dupl():根据物种名称和坐标以及用户定义的附加列删除或标记重复的记录

Package CoordinateCleaner version 2.0-20


Parameters

R 复制代码
cc_dupl(
  x,
  lon = "decimallongitude",
  lat = "decimallatitude",
  species = "species",
  additions = NULL,
  value = "clean",
  verbose = TRUE
)

参数【x】:data.frame。包含地理坐标和物种名称。

参数【lon】:字符串。具有经度坐标的列。默认值 = "decimallongitude"

参数【lat】:字符串。包含纬度坐标的列。默认值 = "decimallatitude"

参数【species】:字符串。包含物种名称的列。默认值 = "species"

参数【additions】:字符串的向量。要包含在重复测试中的其他列。例如,如下图所示,收集器名称和收集器编号。

参数【value】:字符串。定义输出值。

参数【verbose】:逻辑。如果为 TRUE,则报告测试的名称和标记的记录数。


Value

根据参数【value】,包含测试认为正确的记录的 data.frame"clean") 或逻辑向量 ("flagged"),其中TRUE = 测试通过,FALSE = 测试失败/可能有问题。默认值 = "clean"


Conclusion

cc_dupl()函数是CoordinateCleaner软件包中的一个特定函数,用于检测和处理生物多样性数据集中的重复记录。以下是对cc_dupl()函数的总结性介绍:

  • cc_dupl()函数用于识别数据集中的重复记录,并根据不同的参数和阈值进行处理。
  • 它可以通过比较记录之间的经纬度坐标、采样日期和其他属性,来确定是否存在重复的数据记录。
  • 该函数还提供了各种选项和方法,以选择处理重复记录的方式,如保留第一次出现的记录、保留最后一次出现的记录或合并重复的记录。
  • cc_dupl()函数还可以生成一个关于重复记录的详细报告,帮助用户审查和验证相关数据。
  • 该函数返回一个包含处理后数据集的对象,可以继续在其他函数中使用。

总之,cc_dupl()函数是CoordinateCleaner软件包中一个有用的函数,可帮助用户检测和处理生物多样性数据集中的重复记录。它提供了各种选项和报告,以支持用户进行更精确和准确的数据清理。


Example

R 复制代码
x <- data.frame(species = letters[1:10], 
                decimallongitude = sample(x = 0:10, size = 100, replace = TRUE), 
                decimallatitude = sample(x = 0:10, size = 100, replace = TRUE),
                collector = "Bonpl",
                collector.number = c(1001, 354),
                collection = rep(c("K", "WAG","FR", "P", "S"), 20))

cc_dupl(x, value = "flagged")
cc_dupl(x, additions = c("collector", "collector.number"))
相关推荐
MY_TEUCK3 小时前
【Java 后端】SpringBoot 登录认证与会话跟踪实战(JWT + Filter/Interceptor)
java·开发语言·spring boot
QQ2422199793 小时前
基于python+微信小程序的家教管理系统_mh3j9
开发语言·python·微信小程序
沐知全栈开发3 小时前
JavaScript 条件语句
开发语言
RSTJ_16254 小时前
PYTHON+AI LLM DAY THREETY-SEVEN
开发语言·人工智能·python
清水白石0084 小时前
《Python性能深潜:从对象分配开销到“小对象风暴”的破解之道(含实战与最佳实践)》
开发语言·python
Je1lyfish4 小时前
CMU15-445 (2025 Fall/2026 Spring) Project#3 - QueryExecution
linux·c语言·开发语言·数据结构·数据库·c++·算法
Brilliantwxx4 小时前
【C++】 vector(代码实现+坑点讲解)
开发语言·c++·笔记·算法
野生技术架构师4 小时前
2026年最全Java面试题及答案汇总(建议收藏,面试前看这篇就够了)
java·开发语言·面试
百锦再5 小时前
Auto.js变成基础知识学习
开发语言·javascript·学习·sqlite·kotlin·android studio·数据库开发
叼烟扛炮5 小时前
C++第三讲:类和对象(中)
开发语言·c++·类和对象