在本科,没有人教的情况下,艰难的自学了R语言,因此我想能出一个R语言系列教程,在帮助大家的同时,温故而知新,特别如果你是生物或者医学从业者,那本教程正好合适,因为我也是生物人!如果你初学R语言,那么这个教程将会非常合适。
1.1 下载安装R语言与R-studio
熟悉python的朋友都知道,我们很少会直接用IDLE进行编程,而是会用比如jupyternotebook这样的平台进行编程,R语言也不例外,我们分别下载R的内核和R studio。
1.1.1 R下载
我们从中国的镜像进行下载:https://cran.r-project.org/mirrors.html
我们从清华源下载R,选择为windows下载
选择install R for the first time
选择最新版本下载:
后面就是正常安装,但是注意安装路径一定不要有中文!
1.1.2 R studio安装
官网下载链接:Download RStudio | The Popular Open-Source IDE from Posit
点击download Rstudio
现在改版了,直接可以下载exe了,不用再登录什么的了
后面我们就根据提示进行安装,但是我们要保证两点:
(1)安装路径不能有中文
(2)必须和刚刚下载的R在同一个大目录下,可以是同一个文件里的两个大文件夹。
这样就安装好了
1.2 认识R-studio的界面
我们把Rstudio界面分为4个部分:
(1)部分一:这是一个写代码的窗口,我们在里面可以输入很多暂时不执行的代码,我们也可以写一行运行一行,这是R语言和python不一样的地方,我们可以一行一行运行,运行的结果我们可以在工作台2这个界面看到。
(2)部分二:这个就比较像pyhon的运行界面,我们输入一点后就可以直接输出这一行命令的结果,一般是我们去查看一下表格或者运行一个非常简单的命令可以直接在console运行。
(3)部分三:这个见面可以看到我们运行代码后,产生的变量或者列表等的基本信息,在如python,我们新生成一个变量后,可能得输出才知道他是什么,但R可以直接查看
(4)部分四:这是一个大的模块,可以看到我们当前目录下的文件,画图的图及帮助文档
1.3 必须掌握的初试指令
1.3.1 获取帮助
基本上每个包和大部分函数都有自己的帮助文档,这个比较像matlab的模式,我们学习一些基本的指令:
比较正式的搜索指令:
help.start() #帮助文档首页
help(align) #获取某一个函数的帮助文档
我们还可以用简单的方法得到帮助:
?ggplot2 #查找某一个包的帮助文档
??plot #搜索所有有这个函数的包的文档
1.3.2 基本指令
首先我们要明白,我们运行R语言,可以在一个目标目录下,我们读取或者输出文件,可以直接在该目录路径下进行,当然我们也可以每次都输入路径进行执行,我们现在学习一些关于路径及基本操作的指令。
(1)通过getwd()获取当前目录:
(2)通过setwd()改变工作目录:
(3)其他基本指令
history() #获取历史编写的代码命令
ls() #获取工作目录内容
options() #基本设置显示
q() #退出R语言
1.3.3 文件读取-read.csv()
R语言是一个强大的数据处理清洗软件,因此要处理文件的读取及处理完文件的输出非常重要。我们要养成多用csv文件格式的习惯,因为很多时候xlsx格式能承载的数据量有限,而我们在日常处理数据,比如基因组数据的时候,会面对上万的数据,因此csv文件格式是很好的选择,下面我介绍read.csv()函数:用于读取CSV(逗号分隔值 )文件并将其内容导入到R环境中作为一个数据框(data frame)。
-
基本用法:data <- read.csv("path/to/your/file.csv")
-
参数:
-
`file`: 一个字符串,表示要读取的文件的路径和名称。
-
`header`: 指示第一行是否包含列名。默认为`TRUE`,意味着假设第一行是列标题。
-
`sep`: 一个字符串,定义字段之间的分隔符。默认值为逗号(`,`),但也可以设置为其他分隔符如制表符(`\t`)或空格等。
-
`quote`: 一个字符,定义引号的字符。默认为双引号(`"`)。
-
`row.names`: 用来指定行名的来源。如果为`NULL`,则不从文件中读取行名。
-
`colClasses`: 一个字符向量,指定每列的数据类型。例如,`c("numeric", "character")`。
-
`na.strings`: 一个字符串或者字符串向量,指定哪些字符串应该被解释为缺失值(NA)。
-
`comment.char`: 一个字符,定义注释字符。任何以该字符开头的行都会被忽略。
-
`skip`: 一个整数,指定在读取数据之前跳过的行数。
-
`nrows`: 一个整数,指定要读取的最大行数。
-
`stringsAsFactors`: 一个逻辑值,指定字符串是否应该转换为因子。默认值为`TRUE`,但通常设置为`FALSE`以避免不必要的因子转换。
1.3.4 文件输出-write.csv()
我们在处理后,可以输出到指定的工作目录,我们使用write.scv()函数进行输出:
write.csv(x, file = "file.csv", row.names = TRUE, col.names = TRUE, quote = TRUE, sep = ",", eol = "\n", na = "NA", dec = ".", qmethod = c("escape", "backslash"), fileEncoding = ask)
x: 要写入CSV的数据框。
file: 输出的文件名。如果未指定路径,则默认在当前工作目录下创建该文件。
row.names: 一个逻辑值,指示是否将行名写入文件。默认为TRUE。
col.names: 一个逻辑值,指示是否将列名写入文件。默认为TRUE。
quote: 一个逻辑值或字符向量,控制如何引用字段。默认为TRUE,表示所有字段都会被引用。
sep: 字段分隔符。默认为逗号(,)。
eol: 行结束符。默认为换行符(\n)。
na: 缺失值的表示方法。默认为"NA"。
dec: 小数点的表示方法。默认为点(.)。
qmethod: 引号转义的方法。可以是"escape"(使用反斜杠进行转义)或"backslash"(使用反斜杠作为转义字符)。
fileEncoding: 文件的编码方式。如果设置为ask,则会提示用户输入编码方式。
1.4 包-package
在R语言中实现的大部分功能,都依赖强大的第三方包实现,因此学会如何安装包至关重要:
1.4.1 使用install.packages()函数
(1)方法一:比如我们要安装一个名为x的包:
install.packages("x")
(2)很多时候我们会遇到报错,这个时候我们可以下载到本地,然后再安装
1.4.2 包的载入及使用
我们载入一个新安装的包,我们可以按照以下步骤:
library(ggplot2)
help.start()
help(package = "ggplot2")
example(ggplot2)
1.5 小结
本篇我们学习了如何安装R语言及一些基本的R语言认识。