R_handbook_基本函数

1 导入数据

复制代码
# 导入数据
setwd("E:\\FOR_Study\\Daniel_File\\about_Study\\Junior\\Data_Science\\Data")
load("ch2_sample.RData")

# 文件名读入
data <- read.table("v6.csv", header = T, sep = ",")

2 数据离散化

复制代码
# 连续数据离散化
brks <-c (-1, -0.01, 2000, 6000, 10000, 20000, 50000, Inf)
labels <- c("Missing", "0-2000", "2000-6000", "6000-10000",
            "10000-20000", "20000-50000", "above 50000")
dpus$WAGP.fix <- cut(dpus$WAGP.fix, breaks=brks, labels, include.lowest=T)

x <- table(cut(HExer, c(-Inf, 7, 10, Inf)))

# 按条件筛选记录
data <- subset(data,with(data,(bmi>=10)&(bmi<=133)&(age>=18)&(age<=150)
                         &(glucose_max<=900)&(data$glucose_min<=900)
                         &(tempc_min>=30)&(ph_min>=6)))

3 数据集划分

复制代码
# 单次划分
set.seed(128767)
custdata_fix$gp <- runif(dim(custdata_fix)[1])
train_set <- subset(custdata_fix,custdata_fix$gp <= 0.9)
test_set <- subset(custdata_fix,custdata_fix$gp > 0.9)

4 常用函数

复制代码
# ROC评价指标
library('ROCR')
calcAUC <-function(predcol,outcol) {
  perf <-performance(prediction(predcol,outcol==pos),'auc')
  as.numeric(perf@y.values)
}

# 最大似然指标
loglikelihood<-function(y, py) {    
  pysmooth<-ifelse(py==0, 1e-12, ifelse(py==1, 1-1e-12, py))
  sum(y * log(pysmooth) + (1-y)*log(1 -pysmooth))   
}

# 常见指标封装
accuracyMeasures<-function(pred, truth, name="model",value) {   
  dev.norm<--2*loglikelihood(as.numeric(truth), pred)/length(pred)
  ctable<-table(truth==1,pred=(pred>value))
  accuracy <-sum(diag(ctable))/sum(ctable)
  precision <-ctable[2,2]/sum(ctable[,2])
  recall <-ctable[2,2]/sum(ctable[2,])
  f1 <-2*precision*recall/(precision+recall)
  data.frame(model=name, accuracy=accuracy,precision=precision,recall=recall, f1=f1, dev.norm)  
}

# roc曲线
library(ggplot2)
plotROC<-function(predcol,outcol) {
  perf<-performance(prediction(predcol,outcol==pos),'tpr','fpr')
  pf<-data.frame(
    FalsePositiveRate=perf@x.values[[1]],
    TruePositiveRate=perf@y.values[[1]])
  ggplot() + geom_line(data=pf,aes(x=FalsePositiveRate,y=TruePositiveRate)) +
    geom_line(aes(x=c(0,1),y=c(0,1)))
}

5 which函数

which能够帮助定位索引号,如返回当前列表中最大值对应的索引。

复制代码
country[which(prob_age2030_god == max(prob_age2030_god))] 

如找列名对应的索引

复制代码
which(names(data) == 'v225') 

6 group by函数

复制代码
planes <- group_by(data_select, Market)
Market_category <- summarise(planes,         
                              sum_sales = sum(Sales),
                              sum_quantity = sum(Quantity),
                              sum_profit = sum(Profit))     #求和
Market_category
相关推荐
apocelipes9 小时前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
用户83562907805111 小时前
使用 Python 在 PDF 中创建与管理书签
后端·python
MeixianAgent15 小时前
Python 回测数据入口怎么验?历史 K 线入库前先做 5 个检查
后端·python
咕白m62518 小时前
用 Python 实现一键批量查找与替换 Excel 数据
后端·python
SelectDB1 天前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
荣码2 天前
GraphRAG:普通RAG只能回答"点"的问题,我踩了4个坑才搞懂
java·python
金銀銅鐵2 天前
[Python] 基于欧几里得算法,实现分数约分计算器
python·数学
Lyn_Li2 天前
Kaggle Top 5 | 198只股票、200条数据的金融预测——BattleFin高分方案从零复现
python·kaggle·比赛复盘·金融预测
小九九的爸爸3 天前
前端想要入门Agent开发,要具备哪些Python基础?
python·agent·ai编程
阿耶同学3 天前
手把手教你用 LangGraph 搭建三层嵌套 Agent 架构
python·程序员