统计学中“in sample test”与“out of sample”有何区别?

源自风暴统计网:一键统计分析与绘图的网站

今天在一篇因果推断SCI论文中,看到一个词out of sample,翻译为各模型在所有处理和结局变量下的样本外 AUC 和 MSE。这是何意?"in sample test"与"out of sample"有何区别?

在统计学和数据分析中,"in sample"测试和"out of sample"测试是两种重要的测试方法,它们用于评估模型的性能和预测能力。

"In sample"测试使用模型训练时所用的相同数据集来进行测试,这意味着它使用那些已被用来创建模型的数据来评估模型的性能。

然而,这种测试方法可能导致模型过度拟合,即模型在训练数据上的表现很好,但在实际应用中可能表现不佳。过度拟合的一个原因是,模型可能已经"记住"了数据集中的噪声和异常值,这使得评估结果过于乐观。

相比之下,"Out of sample"测试使用与模型训练时不同的数据集来进行测试。通常,这个新的数据集在模型创建时是不可用的,因此也被称作"独立"或"验证"集。

这种测试方法可以更好地评估模型的泛化能力,即模型对新数据的预测能力。由于使用了独立的数据集,模型没有机会"记住"这些数据,因此评估结果更能反映模型的泛化能力。

在实际应用中,为了确保模型的稳定性和可靠性,通常会同时进行"in sample"和"out of sample"测试。这样可以更全面地了解模型的性能。然而,由于"out of sample"测试使用了独立的数据集,它被认为是一种更准确的评估方法,因为它能更准确地预测模型在实际使用中的表现。

讲到这里,是不是又觉得很熟悉,其实就是内部验证集和外部验证集的区别,换了个说法。

总之,"in sample"测试和"out of sample"测试都是评估模型性能的重要方法。尽管它们在使用和评估准确性方面存在差异,但"out of sample"测试因其使用独立数据集而被认为是更准确的方法。


关于郑老师团队及公众号

学统计就找郑老师团队,我们有全面的医学统计课程!

1.医院临床数据分析课程

临床试验(RCT)研究设计与数据分析;临床预测模型和基于R语言/Python的机器学习方法在临床预测模型中的应用(附赠全套代码);医院回顾性数据与真实世界临床研究,涵盖目标模拟试验(模拟RCT)、缺失数据填补下真实世界研究、倾向性评分方法(包括倾向性得分匹配、逆概率加权,重叠加权)等

2.纵向数据分析课程

重复测量资料分析方法培训;轨迹模型在纵向数据分析中的深度应用(全套R代码奉送)

3.公共数据库挖掘与分析课程

NHANES(美国国家健康和营养检查)公共数据库、GBD(全球疾病负担)公共数据库、七大老年健康数据库挖掘与分析课程;孟德尔随机化方法快速发表SCI初级班、高级班以及进阶攻略:整合网络药理学&单细胞测序

4.其他课程

零基础两天学会R语言;Meta分析培训课程,包含网状Meta内容;量表与中介研究数据分析培训班

26年预开课程:

剂量反应网状Meta分析(DR-NMA)、缺失数据预测模型、时依协变量模型与多状态模型在纵向数据中的应用、高级倾向性评分课程、机器学习在医学影像图片数据中的应用、HRS数据库应用与分析

需以上统计课程,请联系郑老师团队(微信:aq566665)

相关推荐
喵手1 分钟前
Python爬虫实战:京东/淘宝搜索多页爬虫实战 - 从反爬对抗到数据入库的完整工程化方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·京东淘宝页面数据采集·反爬对抗到数据入库·采集结果csv导出
callJJ4 分钟前
Spring AI 文本聊天模型完全指南:ChatModel 与 ChatClient
java·大数据·人工智能·spring·spring ai·聊天模型
B站_计算机毕业设计之家17 分钟前
猫眼电影数据可视化与智能分析平台 | Python Flask框架 Echarts 推荐算法 爬虫 大数据 毕业设计源码
python·机器学习·信息可视化·flask·毕业设计·echarts·推荐算法
是店小二呀19 分钟前
CANN 异构计算的极限扩展:从算子融合到多卡通信的统一优化策略
人工智能·深度学习·transformer
PPPPPaPeR.22 分钟前
光学算法实战:深度解析镜片厚度对前后表面折射/反射的影响(纯Python实现)
开发语言·python·数码相机·算法
冻感糕人~23 分钟前
收藏备用|小白&程序员必看!AI Agent入门详解(附工业落地实操关联)
大数据·人工智能·架构·大模型·agent·ai大模型·大模型学习
JaydenAI25 分钟前
[拆解LangChain执行引擎] ManagedValue——一种特殊的只读虚拟通道
python·langchain
予枫的编程笔记26 分钟前
【Linux入门篇】Ubuntu和CentOS包管理不一样?apt与yum对比实操,看完再也不混淆
linux·人工智能·ubuntu·centos·linux包管理·linux新手教程·rpm离线安装
陈西子在网上冲浪26 分钟前
当全国人民用 AI 点奶茶时,你的企业官网还在“人工建站”吗?
人工智能
victory043129 分钟前
hello_agent第九章总结
人工智能·agent