浅论数据分析的智能化和自动化趋势

浅论数据分析的智能化自动化趋势

回顾这半年学到的东西,最近体会到数据分析有智能化的趋势,体现在机器学习模型出现在各个数据分析环节,进而导致了数据分析自动化的趋势,即数据分析的各个环节越来越少地需要人工的干预。

首先,接触到是Boruta算法的流行,这是一个用机器学习模型进行相关变量筛选的算法,最早介绍是在2010年,替代的是传统的根据统计学方法结合临床重要性(主观因素),比如P值和Pearson相关性(热图),或线性回归方法,比如Lasso。传统的方法一般都需要人工参与决定变量筛选的标准,比如P值是0.1还是0.05,Lasso的lambda参数是最小值还是其它,而相对Boruta算法的特点是不需要人工选择,不是说没有参数可以设置,而是设置和不设置结果差别不大。

后来,了解到数据缺失值的补充有一个python包叫做datawig,同样是使用机器(深度)学习的算法对缺失数据,包括分类数据和数值数据,进行插补。传统的变量插补的方法,因为不够智能,需要人为地去判断或选择一些插补的方法或者参数,而机器学习的方法明显的特点是少人工干预。

再后来,就是最近和大家介绍的,机器学习+SHAP分析深入分析变量间关系,可以展现变量间的相关性的趋势和关键点以及交互作用,全程也不需要进行太多的干预。

以上方法逐渐形成一种趋势,体现出两点,1.机器学习算法在数据分析领域的应用;2. 数据分析的自动化趋势。之前数据分析过程中需要人工参与的环节,比如变量筛选环节和数据插补环节,因为机器学习的介入,已经不需要太多人工的参与,体现智能化和自动化的趋势。智能化和自动化是一直以来的趋势,变成现实,可能就在最近。

相关推荐
格林威14 分钟前
工业相机如何通过光度立体成像技术实现高效精准的2.5D缺陷检测
人工智能·深度学习·数码相机·yolo·计算机视觉
Aloudata技术团队18 分钟前
当“数据波动”遇上“智能归因”,谁在背后画出那张因果地图?
数据分析·agent
MarkHD20 分钟前
大语言模型入门指南:从原理到实践应用
人工智能·语言模型·自然语言处理
A尘埃21 分钟前
NLP(自然语言处理, Natural Language Processing)
人工智能·自然语言处理·nlp
dlraba80221 分钟前
机器学习实战(二):Pandas 特征工程与模型协同进阶
人工智能·机器学习·pandas
一碗白开水一23 分钟前
【第19话:定位建图】SLAM点云配准之3D-3D ICP(Iterative Closest Point)方法详解
人工智能·算法
mit6.82425 分钟前
[rStar] 策略与奖励大语言模型
人工智能·语言模型
CV-杨帆32 分钟前
论文阅读:arxiv 2023 Large Language Models are Not Stable Recommender Systems
论文阅读·人工智能·语言模型
羊羊小栈40 分钟前
基于「YOLO目标检测 + 多模态AI分析」的植物病害检测分析系统(vue+flask+数据集+模型训练)
人工智能·yolo·目标检测·毕业设计·创业创新·大作业
胡耀超1 小时前
5、Python-NumPy科学计算基础
开发语言·人工智能·python·深度学习·numpy