文章目录
基础术语
Data Structures (数据结构)
vector- 向量,相同类型元素的一维数组matrix- 矩阵,二维数组data.frame- 数据框,类似Excel表格list- 列表,可包含不同类型元素factor- 因子,用于分类变量array- 数组,多维数据结构
Functions (函数相关)
function()- 函数定义arguments- 参数parameters- 参数return value- 返回值call- 函数调用
数据处理
Data Manipulation
subset- 子集filter- 过滤select- 选择列mutate- 创建新变量transform- 转换数据merge/join- 合并数据aggregate- 聚合sort/order- 排序
Missing Values (缺失值)
NA- 缺失值 (Not Available)NULL- 空值NaN- 非数字 (Not a Number)is.na()- 检查缺失值complete.cases()- 完整观测
统计建模
Regression (回归)
lm()- 线性模型 (Linear Model)glm()- 广义线性模型 (Generalized Linear Model)coefficients- 系数intercept- 截距项slope- 斜率
Model Evaluation (模型评估)
residuals- 残差fitted values- 拟合值R-squared- R平方p-value- P值AIC/BIC- 信息准则
Statistical Tests (统计检验)
t-test- t检验ANOVA- 方差分析chi-square test- 卡方检验correlation- 相关性hypothesis testing- 假设检验
机器学习
Cross-Validation (交叉验证)
training set- 训练集test set- 测试集validation set- 验证集k-fold cross-validation- k折交叉验证LOOCV- 留一法交叉验证 (Leave-One-Out Cross Validation)
Model Types (模型类型)
supervised learning- 监督学习unsupervised learning- 无监督学习classification- 分类regression- 回归clustering- 聚类
数据可视化
Plotting (绘图)
scatter plot- 散点图histogram- 直方图boxplot- 箱线图bar chart- 条形图line plot- 折线图density plot- 密度图
Plot Components (图形组件)
x-axis/y-axis- x轴/y轴legend- 图例title- 标题labels- 标签theme- 主题
编程概念
Control Structures (控制结构)
if else- 条件语句for loop- for循环while loop- while循环break- 跳出循环next- 跳过当前迭代
Error Handling (错误处理)
warning- 警告error- 错误tryCatch()- 错误捕获debug- 调试
包管理
Package Management
install.packages()- 安装包library()- 加载包require()- 要求加载包namespace- 命名空间dependencies- 依赖关系
文件操作
File Operations
read.csv()- 读取CSV文件write.csv()- 写入CSV文件working directory- 工作目录path- 路径import/export- 导入/导出
常用缩写
Common Abbreviations
df- 自由度 (degrees of freedom) 或数据框var- 方差 (variance)sd- 标准差 (standard deviation)se- 标准误 (standard error)CI- 置信区间 (confidence interval)MSE- 均方误差 (mean squared error)RMSE- 均方根误差 (root mean squared error)
重要函数族
Function Families
apply()family - 应用函数族 (lapply,sapply,apply等)plyr/dplyr- 数据处理包ggplot2- 图形语法包stringr- 字符串处理包lubridate- 日期时间处理包
注:这些术语是理解R代码和文档的基础,熟悉它们能大大提高使用R语言的效率。