R语言基础的代码语法解译笔记

1、双冒号,即:"::"

要使用某个包里的函数,通常做法是先加载(library)包,再调用函数。最新加载的包的namespace会成为最新的enviroment,某些情况下可能影响函数的结果。而package name::functionname的用法,一是可以在需要用某个函数时临时直接加载包,不用事先library。另一点更重要的是尽可能减少library带来的附带作用,这一点在开发R包时影响较大。而这种写法的副作用,是会稍微慢上那么几毫秒,在需要反复循环使用一个函数时对效率有影响,其他时候除了写起来麻烦一点,基本没有显见的副作用。

2、%>% (向右操作符,forward-pipe operator)

把左侧的数据或表达式,传递给右侧的函数调用或表达式进行运行,可以连续操作。相当于将左边的作为右边函数的第一个参数。

现实原理如下图所示,使用%>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,最后完成数据计算。

例如:

  • f(x,y)等价于x %>% f(y)
  • g(f(x,y),z)等价于x %>% f(y) %>% g()
R 复制代码
library(ggplot2)
library(dplyr)

cut_depth <- group_by(diamonds,cut,depth)
cut_depth <- summarise(cut_depth,n=n())
cut_depth <- filter(cut_depth,depth>55,depth<70)
cut_depth <- mutate(cut_depth,prop=n/sum(n))
cut_depth

# 使用%>%
cut_depth1 <- diamonds%>%
  group_by(cut,depth)%>%
  summarise(n=n())%>%
  filter(depth>55,depth<70)%>%
  mutate(prop=n/sum(n))
cut_depth1

# 另外一个例子
library(magrittr)

set.seed(123) #设置种子序列,保证结果可重复
n1<-rnorm(10000)        
n2<-abs(n1)*50        
n3<-matrix(n2,ncol = 100) 
n4<-round(rowMeans(n3))
hist(n4%%7)

# 使用 %>%
set.seed(123)
rnorm(10000) %>%
  abs %>% `*` (50)  %>%
  matrix(ncol=100)  %>%
  rowMeans %>% round %>% 
  `%%`(7) %>% hist

3、%T>%(向左操作符,tee operator)

功能和 %>% 基本是一样的,只不过它是把左边的值做为传递的值,而不是当前步计算得到的值。

现实原理如下图所示,使用%T>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集不再向右侧传递,而是把B左侧的A数据集再次向右传递给C函数,最后完成数据计算。

例子:

假设我们计算如下:

R 复制代码
library(magrittr)

set.seed(123)
rnorm(10000) %>%
  abs %>% `*` (50)  %>%
  matrix(ncol=100)  %>%
  rowMeans %>% round %>% 
  `%%`(7) %>% hist %>% sum

提示报错。这是由于输出直方图后,返回值为空,那么再继续使用管道,就会把空值向右进行传递,这样计算最后一步时就会出错。这时我们需求的是,把除以7的余数向右传递给最后一步求和。

使用%T>%改成如下:

R 复制代码
library(magrittr)

set.seed(123)
rnorm(10000) %>%
  abs %>% `*` (50)  %>%
  matrix(ncol=100)  %>%
  rowMeans %>% round %>% 
  `%%`(7) %T>% hist %>% sum

计算出结果。

4、%$% (解释操作符,exposition pipe-operator)

%$%的作用是把左侧数据的属性名传给右侧,让右侧的调用函数直接通过名字,就可以获取左侧的数据。比如,我们获得一个data.frame类型的数据集,通过使用 ,在右侧的函数中可以直接使用列名操作数据。

现实原理如下图所示,使用%$%把左侧的程序的数据集A传递右侧程序的B函数,同时传递数据集A的属性名,作为B函数的内部变量方便对A数据集进行处理,最后完成数据计算。

例子:

下面定义一个10行3列的data.frame,列名分别为x,y,z,获取x列大于5的数据集。使用 %$% 把列名x直接传到右侧进行判断。这里.代表左侧的完整数据对象。一行代码就实现了需求,而且这里不需要显示的定义中间变量。

R 复制代码
library(magrittr)

set.seed(123)
df<-data.frame(x=1:10,y=rnorm(10),z=letters[1:10])
df[df$x>5,]

# 使用%$%后
set.seed(123)
data.frame(x=1:10,y=rnorm(10),z=letters[1:10]) %$% .[x>5,]

5、%<>%(复合赋值操作符,compound assignment pipe-operator)

%<>%复合赋值操作符, 功能与 %>% 基本是一样的,多了一项额外的操作,就是把结果写回到最左侧的对象(覆盖原来的值)。比如,我们需要对一个数据集进行排序,那么需要获得排序的结果,用%<>%就是非常方便的。

现实原理如下图所示,使用%<>%把左侧的程序的数据集A传递右侧程序的B函数,B函数的结果数据集再向右侧传递给C函数,C函数结果的数据集再重新赋值给A,完成整个过程。

例子:

R 复制代码
library(magrittr)

set.seed(123)
x<-rnorm(10)
x %>% abs %>% sort
x # 取完绝对值,排完序之后的结果并没有直接写到x里面去

# 使用%<>%
set.seed(123)
x<-rnorm(10)
x %<>% abs %>% sort
x # 但是如果使用%<>%操作符,你会发现取完绝对值,排完序之后的结果直接覆盖掉了原来的x。

6、符号:$

$符号用于提取数据框(data frame)或列表(list)中的成员。它允许访问数据框或列表中的某个列(成员),并返回该列的值。

例子:

R 复制代码
df <- data.frame(name = c("Alice", "Bob", "Charlie"),
                 age = c(25, 30, 35))

df$name
df$age

注意:$符号只能用于数据框和列表类型的对象,不能用于向量和其他对象。

7、as.factor 或 factor函数作用

as.factor函数用于将一个变量转换为因子(factor)类型(强制转换),分组时用的较多。因子是R语言中用于表示分类变量的数据类型。当将一个变量转换为因子时,R会自动将变量的不同取值作为因子的水平(level),并将原始变量的值替换为对应水平的编码。可以使用as.factor()函数取代factor()函数。

例子:

R 复制代码
gender <- c("男", "女", "男", "男", "女")

gender_factor <- as.factor(gender)
gender_factor

这里返回结果包括以下两个。

  • x向量,这是将转换为因子的向量。
  • levels:原x向量内元素的可能值。

可以使用参数levels强制设定分类数据的顺序:

R 复制代码
gender <- c("男", "女", "男", "男", "女")

gender_factor <- factor(gender, levels=c("女", "男"))
gender_factor

如果有缺失的Levels值,也可以使用levels参数设置完整的Levels数据:

R 复制代码
gender <- c("男", "女", "男", "男", "女")

gender_factor <- factor(gender, levels=c("女", "男", "中"))
gender_factor

将因子水平进行修改:

R 复制代码
gender <- c("男", "女", "男", "男", "女")

gender_factor <- factor(gender, levels=c("女", "男", "中"), labels = c("1","2","3"))
gender_factor

**注意:**指定levels时,使用as.factor会报错。

8、aes 函数作用

aes函数是ggplot2包中的一个重要函数,用于创建美学映射(Aesthetic Mapping),即将数据的变量映射到图形的美学属性上。

aes函数的使用通常发生在ggplot()函数中的mapping参数中。它允许将数据的变量映射到图形的不同属性,如颜色、形状、大小、位置等。通过将美学属性与具体的数据列关联,可以创建丰富多样的图形效果,并在不同的图层中进行数据可视化。

R 复制代码
# 映射函数,函数的最常见参数有两个
# x:x向量,将数据映射到本图层的x轴
# y:y向量,将数据映射到本图层的y轴
# ...:其他向量,将数据映射到本图层的其他几何要素上

library(ggplot2)
aes(x, y, ...)

9、scale_colour_manual 函数作用

scale_colour_manual是ggplot2包中的一个函数,用于手动自定义颜色映射。它允许用户指定不同数据值对应的颜色,以及设置相应的标签和图例。

scale_colour_manual函数通常与ggplot函数中的aes函数和相关的图层函数(如geom_point、geom_line等)一起使用,用于自定义颜色映射。例如,使用以下代码可以创建一个散点图,并手动指定数据值1对应的颜色为红色,数据值2对应的颜色为蓝色。

R 复制代码
library(ggplot2)

# 创建数据框
df <- data.frame(x = c(1, 2, 1, 2), y = c(1, 2, 2, 1), group = c(1, 1, 2, 2))

# 绘制散点图,并手动指定颜色映射
ggplot(data = df, mapping = aes(x = x, y = y, color = factor(group))) +
  geom_point() + # 绘制散点图
  scale_color_manual(values = c("red", "blue"))

上述代码首先创建了一个数据框df,其中包含了三个变量x、y和group。然后使用ggplot函数创建一个散点图,并使用aes函数将x映射到x轴,y映射到y轴,group映射到颜色属性。最后,使用geom_point函数绘制散点图,并使用scale_color_manual函数手动指定颜色映射,将group为1的数据值映射为红色,group为2的数据值映射为蓝色。

通过调整scale_color_manual函数中的values参数,可以指定更多数据值对应的颜色。

10、scale_fill_manual 函数作用

scale_fill_manual是ggplot2包中的一个函数,用于手动自定义填充颜色的映射。它允许用户指定不同数据值对应的填充颜色,以及设置相应的标签和图例。

scale_fill_manual函数通常与ggplot函数中的aes函数和相关的图层函数(如geom_bar、geom_area等)一起使用,用于自定义填充颜色映射。例如,使用以下代码可以创建一个柱状图,并手动指定不同类别的填充颜色。

R 复制代码
library(ggplot2)

# 创建数据框
df <- data.frame(category = c("A", "B", "C", "D"),
                 value = c(10, 15, 20, 25))

# 创建柱状图,并手动指定填充颜色映射
ggplot(data = df, mapping = aes(x = category, y = value, fill = category)) +
  geom_col() +
  scale_fill_manual(values = c("red", "blue", "green", "yellow"))

上述代码首先创建了一个数据框df,其中包含了两个变量category和value。然后使用ggplot函数创建一个柱状图,并使用aes函数将category映射到x轴,value映射到y轴,以及作为柱子的填充颜色。最后,使用geom_col函数绘制柱状图,并使用scale_fill_manual函数手动指定填充颜色映射,将不同的category类别映射为不同的颜色。

通过调整scale_fill_manual函数中的values参数,可以指定更多数据值对应的填充颜色。

11、stat_ellipse 函数作用

stat_ellipse是ggplot2包中的一个统计变换函数,用于在散点图上添加椭圆。它可以根据给定的数据点的均值和协方差矩阵,绘制出椭圆来表示数据的分布情况,提供了对数据集的可视化描述。

stat_ellipse函数通常与geom_point函数一起使用,用于在散点图上显示椭圆。例如,使用以下代码可以创建一个带有椭圆的散点图。

R 复制代码
library(ggplot2)

# 创建数据框
df <- data.frame(x = rnorm(100), y = rnorm(100))

# 绘制散点图,并添加椭圆
ggplot(data = df, mapping = aes(x = x, y = y)) +
  geom_point() +
  stat_ellipse()

上述代码首先创建了一个数据框df,其中包含了两个随机生成的变量x和y。然后使用ggplot函数创建一个散点图,并使用aes函数将x映射到x轴,y映射到y轴。最后,使用geom_point函数绘制散点图,并使用stat_ellipse函数添加椭圆。

stat_ellipse函数默认使用95%的置信区间绘制椭圆,即表示数据的大致范围。还可以通过调整参数来定制椭圆的样式,例如设置椭圆的颜色、填充、线条类型等。

完整例子:

R 复制代码
## 设置种子
set.seed(20240208)

## R包加载
library(ggplot2)

## 数据构建(无意义)
data1<-data.frame(x=rnorm(500,mean = 15,sd=10),
                 y=rnorm(500,mean = 10,sd=10))
data2<-data.frame(x=rnorm(500,mean = 20,sd=10),
                  y=rnorm(500,mean = 15,sd=10))
data<-rbind(data1,data2)

## kmeans聚类
kmeans<-kmeans(data,2,nstart = 1000)
data$cluster<-as.factor(kmeans$cluster)

## 绘图
ggplot(data = data,aes(x=x,y=y,color=cluster))+
  geom_point(alpha=0.3)+
  stat_ellipse(aes(x=x,y=y,fill=cluster),geom = "polygon",level = 0.95,alpha=0.2)+
  scale_colour_manual(values = c("#00AFBB","#FC4E07"))+
  scale_fill_manual(values = c("#00AFBB","#FC4E07"))+
  theme_bw()->p1
print(p1)
相关推荐
特种加菲猫25 分钟前
指尖上的魔法:优雅高效的Linux命令手册
linux·笔记
wuxuanok1 小时前
Web后端开发-分层解耦
java·笔记·后端·学习
wuxuanok2 小时前
Web后端开发-请求响应
java·开发语言·笔记·学习
诗句藏于尽头2 小时前
内网使用rustdesk搭建远程桌面详细版
笔记
蜡笔小电芯2 小时前
【C语言】指针与回调机制学习笔记
c语言·笔记·学习
丰锋ff2 小时前
瑞斯拜考研词汇课笔记
笔记
DKPT4 小时前
Java享元模式实现方式与应用场景分析
java·笔记·学习·设计模式·享元模式
KoiHeng7 小时前
操作系统简要知识
linux·笔记
巴伦是只猫8 小时前
【机器学习笔记Ⅰ】11 多项式回归
笔记·机器学习·回归
DKPT12 小时前
Java桥接模式实现方式与测试方法
java·笔记·学习·设计模式·桥接模式