R语言学习--Day04--数据分析技巧

在清洗完数据,在对数据分析前,我们要懂得先梳理一下我们的逻辑,即数据是什么形式的,要进行哪种分析,有可能呈现什么特点,进而再想怎么处理数据去画图可以最大程度地凸显我们要的特点。

一般来讲,数据会有以下几种特点:单分布、双变量关系、多变量之间的比较、时间趋势、构成比例、影响程度,分别对应问题:数据如何分布、X与Y的联系、变量间的差异、如何随时间变化、各部分占比、哪种因素对结果的影响更大。大部分的数据,基本都是由这几种情况排列组合的复杂问题,我们要学会拆解问题去一步步解决,这样也能使我们的思路更加明确。

特别的,有时候我们在拿到数据时,就跟非监督学习一样,我们只知道要分析数据特点,但对结果的分布缺乏概念,这时我们就可以采取先把数据分布画出来的操作,注意数据的数量,如果样本少,我们直接画箱线图或者散点图就行,但如果数据非常多,那此时用六边形图,就比较合适了。

假如我们有一些数据

R 复制代码
set.seed(42)

# 生成4种类别的数据(每组1000个观测值)
n <- 1000
df <- data.frame(
  # 类别变量(4组)
  group = rep(c("A组-正态分布", "B组-右偏分布", "C组-双峰分布", "D组-离群点"), each = n),
  
  # X变量(根据组别生成不同分布)
  x = c(
    rnorm(n),                       # A组:正态分布
    rgamma(n, shape = 2),           # B组:右偏分布
    c(rnorm(n/2, -2), rnorm(n/2, 2)), # C组:双峰分布
    c(rnorm(n*0.95), rnorm(n*0.05, 5)) # D组:离群点
  ),
  
  # Y变量(与X相关,加入噪声)
  y = c(
    0.8 * rnorm(n) + rnorm(n, sd = 0.3),         # A组
    0.5 * rgamma(n, shape = 2) + rnorm(n, sd = 0.2), # B组
    c(rnorm(n/2, -1), rnorm(n/2, 1)) + 0.5*rnorm(n),  # C组
    c(rnorm(n*0.95), rnorm(n*0.05, 8))           # D组
  )
)

然后分别生成六边形图和箱线图

R 复制代码
hex_facet <- ggplot(df, aes(x = x, y = y)) +
  geom_hex(bins = 30, alpha = 0.8) +
  scale_fill_gradient(low = "lightblue", high = "darkblue", name = "频次") +
  facet_wrap(~group, scales = "free") +  # 按组别分面,自由缩放坐标轴
  labs(title = "多类别六边形图(分面展示)", x = "X变量", y = "Y变量") +
  theme_minimal()

print(hex_facet)
R 复制代码
box_facet <- ggplot(df, aes(y = y)) +
  geom_boxplot(fill = "skyblue", width = 0.5) +
  facet_grid(. ~ group, scales = "free_x") +  # 横向分面
  labs(title = "多类别箱线图(横向分面)", x = "", y = "Y变量") +
  theme_minimal()

print(box_facet)
相关推荐
计算机编程小央姐1 小时前
大数据毕业设计选题推荐:基于Hadoop+Spark的全球能源消耗数据分析与可视化系统
大数据·hadoop·数据分析·spark·课程设计·毕设
MoRanzhi12031 小时前
12. NumPy 数据分析与图像处理入门
大数据·图像处理·人工智能·python·矩阵·数据分析·numpy
兰亭妙微1 小时前
软件开发公司如何利用大数据可视化设计提升决策效率
信息可视化·数据挖掘·数据分析
leo_yu_yty2 小时前
Mysql DBA学习笔记(MVCC)
学习·mysql·dba
AI悦创|编程1v12 小时前
00-为什么要系统学习正则表达式?
学习·正则表达式·python一对一辅导·python一对一教学
Q26433650233 小时前
【有源码】基于Hadoop+Spark的AI就业影响数据分析与可视化系统-AI驱动下的就业市场变迁数据分析与可视化研究-基于大数据的AI就业趋势分析可视化平台
大数据·hadoop·机器学习·数据挖掘·数据分析·spark·毕业设计
麦麦大数据3 小时前
D017 vue+django+neo4j音乐知识图谱推荐可视化分析系统|带管理员角色+爬虫
vue.js·数据分析·django·知识图谱·neo4j·推荐算法
能不能别报错3 小时前
K8s学习笔记(七) yaml
笔记·学习·kubernetes
折翼的恶魔4 小时前
前端学习之CSS
前端·css·学习
LFly_ice5 小时前
学习React-16-useContext
前端·学习·react.js