Q1:CSV文件中第一列就是country,为什么读取后变为X.country


Answer:CSV文件的原始列名是" country"(前面有空格),R将其转换为X.country。
R数据框,第一个参数为行索引,第二个参数为列索引
r
dataframe[nrow, ncol]
# 第一个参数为空表示选择所有行,只保留指定的列
heptathlon[, c("hurdles", "highjump", "shot")]
# 等价于:
heptathlon[1:nrow(heptathlon), c("hurdles", "highjump", "shot")]
主成分分析 Principal Components Analysis
prcomp和princomp都是R中进行主成分分析的函数,但它们有重要区别:

prcomp的参数

prcomp的返回值

round()函数:四舍五入
第一个参数x:要四舍五入的数值或矩阵
第二个参数digits:保留的小数位数(默认为0)
r
round(x, digits = 0)
碎石图(Scree Plot)
作用:碎石图是主成分分析中用于确定保留多少个主成分的重要可视化工具。
1、确定主成分数量:特征值 > 1 的主成分通常保留
2、识别"肘部":特征值突然变缓的点是关键转折点
3、平衡信息保留与降维:避免保留过多或过少的主成分
4、可视化决策:直观看到各主成分的重要性
为什么叫碎石:
-
图中特征值随着主成分编号增加而下降
-
下降趋势像山坡上的碎石(scree)
-
"肘部"(elbow)位置对应特征值突然变缓的点
-
这个点就像山坡脚,再往后的碎石(主成分)可以忽略
-
在R中,保存路径根目录是当前工作目录。
r
# 1. 查看当前工作目录
getwd()
# 2. 设置工作目录(推荐方法)
setwd("D:/R file/多元统计分析")
# 然后可以直接使用相对路径
ggsave("image/scree_plot.png", scree_plot)
# 3. 使用RStudio菜单设置
# Session -> Set Working Directory -> Choose Directory...