R语言学习--Day04--数据分析技巧

在清洗完数据,在对数据分析前,我们要懂得先梳理一下我们的逻辑,即数据是什么形式的,要进行哪种分析,有可能呈现什么特点,进而再想怎么处理数据去画图可以最大程度地凸显我们要的特点。

一般来讲,数据会有以下几种特点:单分布、双变量关系、多变量之间的比较、时间趋势、构成比例、影响程度,分别对应问题:数据如何分布、X与Y的联系、变量间的差异、如何随时间变化、各部分占比、哪种因素对结果的影响更大。大部分的数据,基本都是由这几种情况排列组合的复杂问题,我们要学会拆解问题去一步步解决,这样也能使我们的思路更加明确。

特别的,有时候我们在拿到数据时,就跟非监督学习一样,我们只知道要分析数据特点,但对结果的分布缺乏概念,这时我们就可以采取先把数据分布画出来的操作,注意数据的数量,如果样本少,我们直接画箱线图或者散点图就行,但如果数据非常多,那此时用六边形图,就比较合适了。

假如我们有一些数据

R 复制代码
set.seed(42)

# 生成4种类别的数据(每组1000个观测值)
n <- 1000
df <- data.frame(
  # 类别变量(4组)
  group = rep(c("A组-正态分布", "B组-右偏分布", "C组-双峰分布", "D组-离群点"), each = n),
  
  # X变量(根据组别生成不同分布)
  x = c(
    rnorm(n),                       # A组:正态分布
    rgamma(n, shape = 2),           # B组:右偏分布
    c(rnorm(n/2, -2), rnorm(n/2, 2)), # C组:双峰分布
    c(rnorm(n*0.95), rnorm(n*0.05, 5)) # D组:离群点
  ),
  
  # Y变量(与X相关,加入噪声)
  y = c(
    0.8 * rnorm(n) + rnorm(n, sd = 0.3),         # A组
    0.5 * rgamma(n, shape = 2) + rnorm(n, sd = 0.2), # B组
    c(rnorm(n/2, -1), rnorm(n/2, 1)) + 0.5*rnorm(n),  # C组
    c(rnorm(n*0.95), rnorm(n*0.05, 8))           # D组
  )
)

然后分别生成六边形图和箱线图

R 复制代码
hex_facet <- ggplot(df, aes(x = x, y = y)) +
  geom_hex(bins = 30, alpha = 0.8) +
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "频次") +
  facet_wrap(~group, scales = "free") +  # 按组别分面,自由缩放坐标轴
  labs(title = "多类别六边形图(分面展示)", x = "X变量", y = "Y变量") +
  theme_minimal()

print(hex_facet)
R 复制代码
box_facet <- ggplot(df, aes(y = y)) +
  geom_boxplot(fill = "skyblue", width = 0.5) +
  facet_grid(. ~ group, scales = "free_x") +  # 横向分面
  labs(title = "多类别箱线图(横向分面)", x = "", y = "Y变量") +
  theme_minimal()

print(box_facet)
相关推荐
咚咚王者23 分钟前
人工智能之数据分析 Matplotlib:第四章 图形类型
人工智能·数据分析·matplotlib
b***666140 分钟前
【golang学习之旅】使用VScode安装配置Go开发环境
vscode·学习·golang
语落心生2 小时前
大宗供应链企业舆情指标系统设计(一)舆情指标设计
数据分析
越努力越幸运5082 小时前
webpack的学习打包工具
前端·学习·webpack
语落心生3 小时前
餐饮供应链的数仓设计思考 (五) 系统稳定性与SLA保障体系
数据分析
语落心生3 小时前
餐饮供应链的数仓设计思考 (四) 餐饮连锁企业数据模型可解释性
数据分析
语落心生3 小时前
餐饮供应链的数仓设计思考 (三) 数据管道与核心系统API对接方案
数据分析
语落心生3 小时前
餐饮供应链的数仓设计思考 (二) 餐饮连锁企业深度业务模型分析
数据分析
韩曙亮3 小时前
【人工智能】AI 人工智能 技术 学习路径分析 ② ( 深度学习 -> 机器视觉 )
人工智能·深度学习·学习·ai·机器视觉