Package CoordinateCleaner version 2.0-20
R
cc_outl(
x,
lon = "decimallongitude",
lat = "decimallatitude",
species = "species",
method = "quantile",
mltpl = 5,
tdi = 1000,
value = "clean",
sampling_thresh = 0,
verbose = TRUE,
min_occs = 7,
thinning = FALSE,
thinning_res = 0.5
)
coordinatecleaner
是一个用于清理地理坐标数据的R语言包。它提供了一系列函数,用于检测和纠正异常值、重复值和无效值等问题。其中,cc_outl
是coordinatecleaner
包中的一个函数,用于检测和处理地理坐标数据中的异常值。
cc_outl
函数的主要功能是基于离群值检测算法,对给定的地理坐标数据进行异常值的识别和处理。该函数通过计算每个点到其最近邻点的距离,并使用离群值检测算法(如孤立森林或Z-score)来判断是否存在离群值。
使用cc_outl
函数时,你需要输入一个包含地理坐标数据的数据框或数据表,并指定以下几个参数:
data
: 包含地理坐标数据的数据框或数据表。lat_col
:指定包含纬度信息的列名。lon_col
:指定包含经度信息的列名。method
:指定离群值检测方法,可以选择"iqr"(四分位数法),"zscore"(Z-score法)或"isolation_forest"(孤立森林法)。threshold
:指定离群值检测的阈值,用于决定哪些点被认为是离群值。
下面是一个示例使用cc_outl
函数的代码:
R
library(coordinatecleaner)
# 创建包含地理坐标数据的数据框
data <- data.frame(
lat = c(40.7128, 34.0522, 37.7749, 39.9526, 41.8781),
lon = c(-74.0060, -118.2437, -122.4194, -75.1652, -87.6298)
)
# 使用cc_outl函数检测并处理离群值
clean_data <- cc_outl(data, lat_col = "lat", lon_col = "lon", method = "iqr", threshold = 1.5)
# 打印清理后的数据
print(clean_data)
上述示例中,我们创建了一个包含5个地理坐标点的数据框,然后通过调用cc_outl
函数对这些坐标点进行了离群值检测和处理。最后,打印出清理后的数据。
请注意,coordinatecleaner
包还提供了其他函数来处理重复值、无效值等问题,你可以根据需求选择适当的函数进行数据清理操作。