数据科学与大数据(2)

数据分析,要从能解决问题,常常解决的问题有4个问题:1.是什么?2.为什么?3.怎么做?4.做多少?,然后第3点和第4点往往是三年以上的数据分析师来干的,刚进入的小白往往是从事第1类和第2类问题。第1类问题是用数据去量化企业当前的经营状现状或者业务事实,从业务的细节到数据再到图表,再到业务到底发生了什么?数据往往是数据库,图表是图和表以及看板。第2类问题为什么是指异常差距背后的原因要用分析的方法来进行拆解,得出原因,得出数据,得出相关性并且要验证。第3类问题是行动策略上,第4类问题是指找方向对抗未知的,在已有的方向上进行各种计算,从业务的目标,绩效的方案,业务模型等等来找出解决方案

第1种和第2种是什么、为什么。第1步往往是确定问题,确定你的目的背景和思路,我们可以用这样的语言来进行目的明确程度:因为加背景,我想加目的,现在加思路,最后加感谢。

思考问题往往包括确定问题,拆解问题,量化问题,分析数据,又包括收集数据处理数据制作图表上传发布,输出结论又包括一句话加一幅图,很多复杂问题的本质非常简单,图片要易于理解,炫技不可取

判断是否自己达标

数据的格式往往有日期,字符串,数字。

统计口径:啥时候一个数据才算有效数据。

这里获取数据常用的爬虫主要有4个方面,一个是模拟操作,网页解析和数据抓包以及请求API,模拟操作是用程序替代了机械重复的工作,网页解析是解析网页的源码工具,常用的有八爪鱼后裔采集器或者是Python当中的爬虫包.数据抓标是指直接向网页请求数据提取想要的字段,一般用Python语言实现.但是近年来随着数据安全法的不断完善,爬虫基本上是面向监狱的编程.所以的话就出现了第4种正规的爬虫,也就是请求api的方式,是指约定规则后给了一个访问地址,在规则内获取对方允许的数据.

对于处理数据的话,我们是要把脏数据变成干净的,数据往往是由数据工程师来完成直接把干净的数据弄到数据库中。制作图表的话,常常用的是透视表和各种报表。对于一些非量化的部分,需要我们和数据放在一起来考虑,最常见的来测试的方法是ab测试,大多数的公司会考察这方面的知识,能体现一名分析师的专业积累。要记住分析师他的职能,不单单是分析往往,行百里者半90,真正的高级管理岗没有职能划分,都是分明各个业务线,所以的话如果在后面的工作机会中有去跟进具体的场景落地并得到及时的反馈的机会,一定要去大胆尝试,把你认同的东西推进下去永远是正确的,你想做个普薪执行层还是一个高薪管理层。

在数据领域往往有5个理论基础一定不能忽略,分别是大数定律,罗卡定律,幸存者偏差,辛普森悖论和帕累托最优。大数定律是指。

所以说当分析的样本小的时候,得出的结论会失效,这是客观的规律,不会因为人的抑制而发生转移,我们常常会采用这样的方式来解决。

罗卡定律是指凡有接触必有痕迹,去获取挖掘去挖掘更多的数据。

幸存者偏差:

辛普森悖论一定要确保数据在同一量级和权重下再进行分析。

帕累托最优是资源分配的理想状态。

数据领域当中的分析,框架是MCE法则及相互独立,完全穷尽,一个个清晰有效又没有遗漏的单元。

4种拆解方法,第1个是时间流程法,第2个是模型框架法,第3个是量化公式法,第4个是穷尽要素法。第1个时间流程法,常见的是漏斗分析,经典的是AARRR模型,当然还有PDCA和精益创业模型

而PDCA模型是指P是指计划D是指执行,C是指检查,A是指处理,精益创业的话它是用 idea来建造产品,产品用用来测试数据,数据又用来学习新的想法.

模型框架法常用的是SWOT和RFM

量化公式法也就是公式来进行量化数据.量化问题为数据,当中要注重属性、绝对值和转换率。属性是指描述分析对象有哪些特征,绝对值是指衡量一件事最后的结果,转换率是指衡量一个环节的完成度。

穷尽要素法典型的是电商平台的八大人群,当然使用该方法一般是经验丰富的分析师.

往往在企业当中面对一个业务,我们要进行诊断,可以从这4个方面快速构造出诊断模型。

相关推荐
郭源潮34512 分钟前
Hadoop
大数据·hadoop·分布式
中科岩创19 分钟前
中科岩创桥梁自动化监测解决方案
大数据·网络·物联网
百家方案1 小时前
「下载」智慧产业园区-数字孪生建设解决方案:重构产业全景图,打造虚实结合的园区数字化底座
大数据·人工智能·智慧园区·数智化园区
forestsea1 小时前
【Elasticsearch】分片与副本机制:优化数据存储与查询性能
大数据·elasticsearch·搜索引擎
开着拖拉机回家1 小时前
【Ambari】使用 Knox 进行 LDAP 身份认证
大数据·hadoop·gateway·ambari·ldap·knox
地球资源数据云1 小时前
全国30米分辨率逐年植被覆盖度(FVC)数据集
大数据·运维·服务器·数据库·均值算法
INFINI Labs1 小时前
Elasticsearch filter context 的使用原理
大数据·elasticsearch·jenkins·filter·querycache
Ahern_2 小时前
Oracle 普通表至分区表的分区交换
大数据·数据库·sql·oracle
李昊哲小课2 小时前
deepin 安装 kafka
大数据·分布式·zookeeper·数据分析·kafka
汤姆和佩琦3 小时前
2024-12-25-sklearn学习(20)无监督学习-双聚类 料峭春风吹酒醒,微冷,山头斜照却相迎。
学习·聚类·sklearn