R可视化数据必要格式——长格式

一、引言

我们在对数据进行可视化时遇到最头疼、最常见的问题是什么?数据问题。

因为我们往往不会从零自己编程进行可视化,往往是现有模板或积累,而正确的数据格式对应正确的图形包要求,一定会正确出图,所以只有一个问题------数据格式问题。

在R中,绝大多数图形要求的格式------都是长格式。

二、定义

何为长格式?

运行下面这个代码,你会有所理解:

R 复制代码
library(tidyr)  
# 假设的宽格式数据(从长格式转换而来)  
wide_data <- data.frame(  
  City = c("CityA", "CityB", "CityC"),  
  Year = c(2020, 2020, 2020),  
  Education = c(100, 110, 95),  
  Healthcare = c(120, 130, 115),  
  Transportation = c(80, 90, 75)  
)  
print(wide_data)
# 转换为长格式数据  
long_data <- pivot_longer(wide_data,  
                          cols = -c(City, Year), # 指定哪些列需要被转换成长格式(除了City和Year)  
                          names_to = "Category", # 新增列的名称,用于存储原宽格式中的列名  
                          values_to = "Expenditure") # 新增列的名称,用于存储原宽格式中的值  
# 查看长格式数据  
print(long_data)

我们习惯的宽格式如下(一个城市在某一年对应的教育、健康及交通指数):

这是转化过后的长格式(将教育、健康及交通列进行转换):

也就是说, 我选定n列,这n列的列名重新生成一列(names_to),这n列的数据重新生成一列(values_to),这两列相互对应。

三、理解

为什么要这样呢?

我们都熟悉在R中是按列名操作数据的,如果是宽格式,那么宽,不方便操作。而转换成长格式呢?我们就可以方便地对两列数据进行操作。

并且要知道""的概念,上述例子中,有三个组别:CityA、B、C,而每一组又有三个标签(组别):教育、健康、交通。

运行下面这个例子体会:

R 复制代码
# 制作分组柱状图  
ggplot(long_data, aes(x = Category, y = Expenditure, fill = Category)) +  
  geom_bar(stat = "identity", position = "dodge") + # 使用identity统计量,并设置位置为分组(dodge)  
  facet_wrap(~ City, scales = "free_y") + # 按城市分组,y轴比例自由调整  
  labs(title = "分组柱状图:不同城市的各类支出",  
       x = "类别",  
       y = "支出金额",  
       fill = "类别") +  
  theme_minimal() + # 使用简约主题  
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) # 旋转x轴标签以改善可读性  

按城市为大组进行分类:

运行下述代码:

R 复制代码
ggplot(long_data, aes(x = City, y = Expenditure, fill = City)) +  
  geom_bar(stat = "identity", position = "dodge") + # 使用identity统计量,并设置位置为分组(dodge)  
  facet_wrap(~ Category, scales = "free_y") + # 按城市分组,y轴比例自由调整  
  labs(title = "分组柱状图:不同城市的各类支出",  
       x = "类别",  
       y = "支出金额",  
       fill = "类别") +  
  theme_minimal() + # 使用简约主题  
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) # 旋转x轴标签以改善可读性  

按照 教育、健康、交通为大组进行分类:

到这里,相信你对长格式及数据格式的使用都有了深刻理解,自己去试试吧!

相关推荐
TDengine (老段)1 小时前
TDengine C/C++ 连接器进阶指南
大数据·c语言·c++·人工智能·物联网·时序数据库·tdengine
EveryPossible2 小时前
穿透iframe
学习
檐下翻书1732 小时前
产品开发跨职能流程图在线生成工具
大数据·人工智能·架构·流程图·论文笔记
杜子不疼.2 小时前
计算机视觉热门模型手册:Faster R-CNN / YOLO / SAM 技术原理 + 应用场景对比
人工智能·计算机视觉·r语言·cnn
木木木一2 小时前
Rust学习记录--C7 Package, Crate, Module
开发语言·学习·rust
落羽凉笙8 小时前
Python学习笔记(3)|数据类型、变量与运算符:夯实基础,从入门到避坑(附图解+代码)
笔记·python·学习
Quintus五等升8 小时前
深度学习①|线性回归的实现
人工智能·python·深度学习·学习·机器学习·回归·线性回归
TTBIGDATA8 小时前
【Knox编译】xmlsectool 依赖缺失问题解析
大数据·hadoop·ambari·hdp·kerberos·knox·bigtop
天远Date Lab8 小时前
Python实战:对接天远数据手机号码归属地API,实现精准用户分群与本地化运营
大数据·开发语言·python
TechubNews9 小时前
2026 年观察名单:基于 a16z「重大构想」,详解稳定币、RWA 及 AI Agent 等 8 大流行趋势
大数据·人工智能·区块链