R语言数据分析基础（二）

摸鱼仙人~2024-03-30 9:19

R语言和Python的pandas库都用于数据处理和分析，但它们在语法和功能上有所不同。R语言主要用于统计计算和图形生成，而pandas则专注于数据处理和分析。

以下是一些R语言中实现pandas相似操作的方法：

数据框（Data Frame） :

R语言中的数据框（data frame）类似于pandas中的DataFrame，可以存储不同类型的数据。你可以使用data.frame()函数来创建数据框。
r 复制代码
```
# 创建一个数据框
df <- data.frame(
  A = 1:5,
  B = c("a", "b", "c", "d", "e"),
  C = c(TRUE, FALSE, TRUE, FALSE, TRUE)
)
```
数据读取 :

R语言中有多种函数可以读取数据，例如read.csv(), read.table(), read_excel()（来自readxl包）等。
r 复制代码
```
# 读取CSV文件
data <- read.csv("data.csv")
```
数据选择和过滤 :

R语言中可以使用$符号来选择数据框中的列，或者使用subset()函数来过滤数据。
r 复制代码
```
# 选择数据框中的列
column_A <- df$A

# 过滤数据
filtered_data <- subset(df, A > 3)
```
数据汇总 :

R语言中有多种函数可以进行数据汇总，例如aggregate(), tapply()等。
r 复制代码
```
# 按列B进行汇总
summary <- aggregate(A ~ B, data = df, FUN = mean)
```
数据可视化 :

R语言中有许多用于数据可视化的包，如ggplot2, lattice, plotly等。
r 复制代码
```
# 使用ggplot2包进行数据可视化
library(ggplot2)
ggplot(df, aes(x = A, y = B)) +
  geom_point()
```
数据处理 :

R语言中有许多用于数据处理的函数，如apply(), lapply(), sapply()等。
r 复制代码
```
# 对数据框的每一列应用函数
result <- lapply(df, function(x) mean(x, na.rm = TRUE))
```