浅论数据分析的智能化和自动化趋势

浅论数据分析的智能化自动化趋势

回顾这半年学到的东西,最近体会到数据分析有智能化的趋势,体现在机器学习模型出现在各个数据分析环节,进而导致了数据分析自动化的趋势,即数据分析的各个环节越来越少地需要人工的干预。

首先,接触到是Boruta算法的流行,这是一个用机器学习模型进行相关变量筛选的算法,最早介绍是在2010年,替代的是传统的根据统计学方法结合临床重要性(主观因素),比如P值和Pearson相关性(热图),或线性回归方法,比如Lasso。传统的方法一般都需要人工参与决定变量筛选的标准,比如P值是0.1还是0.05,Lasso的lambda参数是最小值还是其它,而相对Boruta算法的特点是不需要人工选择,不是说没有参数可以设置,而是设置和不设置结果差别不大。

后来,了解到数据缺失值的补充有一个python包叫做datawig,同样是使用机器(深度)学习的算法对缺失数据,包括分类数据和数值数据,进行插补。传统的变量插补的方法,因为不够智能,需要人为地去判断或选择一些插补的方法或者参数,而机器学习的方法明显的特点是少人工干预。

再后来,就是最近和大家介绍的,机器学习+SHAP分析深入分析变量间关系,可以展现变量间的相关性的趋势和关键点以及交互作用,全程也不需要进行太多的干预。

以上方法逐渐形成一种趋势,体现出两点,1.机器学习算法在数据分析领域的应用;2. 数据分析的自动化趋势。之前数据分析过程中需要人工参与的环节,比如变量筛选环节和数据插补环节,因为机器学习的介入,已经不需要太多人工的参与,体现智能化和自动化的趋势。智能化和自动化是一直以来的趋势,变成现实,可能就在最近。

相关推荐
黄焖鸡能干四碗4 分钟前
信息安全管理制度(Word)
大数据·数据库·人工智能·智慧城市·规格说明书
paopao_wu4 分钟前
DeepSeek-OCR实战(01):基础运行环境搭建-Ubuntu
linux·人工智能·ubuntu·ai·ocr
Altair澳汰尔5 分钟前
新闻速递丨Altair RapidMiner 数据分析和 AI 平台助力企业加速智能升级:扩展智能体 AI 及分析生态系统
人工智能·ai·数据分析·仿真·cae·rapidminer·数据自动化
oil欧哟10 分钟前
GitHub星标3万,OpenAI 官方支持——深度解读 AI Agent 连接协议的行业标准 MCP
人工智能·github
极客BIM工作室21 分钟前
单层前馈神经网络的万能逼近定理
人工智能·深度学习·神经网络
我的offer在哪里23 分钟前
RAG 2025 深度实战指南:从技术原理到企业级落地,解锁大模型应用核心能力
人工智能
工藤学编程30 分钟前
零基础学AI大模型之LangChain Embedding框架全解析
人工智能·langchain·embedding
图灵信徒33 分钟前
R语言绘图与可视化第六章总结
python·数据挖掘·数据分析·r语言
IT_陈寒39 分钟前
React性能优化实战:这5个Hooks技巧让我的应用快了40%
前端·人工智能·后端
leijiwen1 小时前
规则优先:AI 时代的规范驱动开发(SDD)新范式
人工智能·驱动开发