文章目录
基础术语
Data Structures (数据结构)
vector
- 向量,相同类型元素的一维数组matrix
- 矩阵,二维数组data.frame
- 数据框,类似Excel表格list
- 列表,可包含不同类型元素factor
- 因子,用于分类变量array
- 数组,多维数据结构
Functions (函数相关)
function()
- 函数定义arguments
- 参数parameters
- 参数return value
- 返回值call
- 函数调用
数据处理
Data Manipulation
subset
- 子集filter
- 过滤select
- 选择列mutate
- 创建新变量transform
- 转换数据merge
/join
- 合并数据aggregate
- 聚合sort
/order
- 排序
Missing Values (缺失值)
NA
- 缺失值 (Not Available)NULL
- 空值NaN
- 非数字 (Not a Number)is.na()
- 检查缺失值complete.cases()
- 完整观测
统计建模
Regression (回归)
lm()
- 线性模型 (Linear Model)glm()
- 广义线性模型 (Generalized Linear Model)coefficients
- 系数intercept
- 截距项slope
- 斜率
Model Evaluation (模型评估)
residuals
- 残差fitted values
- 拟合值R-squared
- R平方p-value
- P值AIC
/BIC
- 信息准则
Statistical Tests (统计检验)
t-test
- t检验ANOVA
- 方差分析chi-square test
- 卡方检验correlation
- 相关性hypothesis testing
- 假设检验
机器学习
Cross-Validation (交叉验证)
training set
- 训练集test set
- 测试集validation set
- 验证集k-fold cross-validation
- k折交叉验证LOOCV
- 留一法交叉验证 (Leave-One-Out Cross Validation)
Model Types (模型类型)
supervised learning
- 监督学习unsupervised learning
- 无监督学习classification
- 分类regression
- 回归clustering
- 聚类
数据可视化
Plotting (绘图)
scatter plot
- 散点图histogram
- 直方图boxplot
- 箱线图bar chart
- 条形图line plot
- 折线图density plot
- 密度图
Plot Components (图形组件)
x-axis
/y-axis
- x轴/y轴legend
- 图例title
- 标题labels
- 标签theme
- 主题
编程概念
Control Structures (控制结构)
if else
- 条件语句for loop
- for循环while loop
- while循环break
- 跳出循环next
- 跳过当前迭代
Error Handling (错误处理)
warning
- 警告error
- 错误tryCatch()
- 错误捕获debug
- 调试
包管理
Package Management
install.packages()
- 安装包library()
- 加载包require()
- 要求加载包namespace
- 命名空间dependencies
- 依赖关系
文件操作
File Operations
read.csv()
- 读取CSV文件write.csv()
- 写入CSV文件working directory
- 工作目录path
- 路径import
/export
- 导入/导出
常用缩写
Common Abbreviations
df
- 自由度 (degrees of freedom) 或数据框var
- 方差 (variance)sd
- 标准差 (standard deviation)se
- 标准误 (standard error)CI
- 置信区间 (confidence interval)MSE
- 均方误差 (mean squared error)RMSE
- 均方根误差 (root mean squared error)
重要函数族
Function Families
apply()
family - 应用函数族 (lapply
,sapply
,apply
等)plyr
/dplyr
- 数据处理包ggplot2
- 图形语法包stringr
- 字符串处理包lubridate
- 日期时间处理包
注:这些术语是理解R代码和文档的基础,熟悉它们能大大提高使用R语言的效率。