数据科学与大数据(2)

数据分析,要从能解决问题,常常解决的问题有4个问题:1.是什么?2.为什么?3.怎么做?4.做多少?,然后第3点和第4点往往是三年以上的数据分析师来干的,刚进入的小白往往是从事第1类和第2类问题。第1类问题是用数据去量化企业当前的经营状现状或者业务事实,从业务的细节到数据再到图表,再到业务到底发生了什么?数据往往是数据库,图表是图和表以及看板。第2类问题为什么是指异常差距背后的原因要用分析的方法来进行拆解,得出原因,得出数据,得出相关性并且要验证。第3类问题是行动策略上,第4类问题是指找方向对抗未知的,在已有的方向上进行各种计算,从业务的目标,绩效的方案,业务模型等等来找出解决方案

第1种和第2种是什么、为什么。第1步往往是确定问题,确定你的目的背景和思路,我们可以用这样的语言来进行目的明确程度:因为加背景,我想加目的,现在加思路,最后加感谢。

思考问题往往包括确定问题,拆解问题,量化问题,分析数据,又包括收集数据处理数据制作图表上传发布,输出结论又包括一句话加一幅图,很多复杂问题的本质非常简单,图片要易于理解,炫技不可取

判断是否自己达标

数据的格式往往有日期,字符串,数字。

统计口径:啥时候一个数据才算有效数据。

这里获取数据常用的爬虫主要有4个方面,一个是模拟操作,网页解析和数据抓包以及请求API,模拟操作是用程序替代了机械重复的工作,网页解析是解析网页的源码工具,常用的有八爪鱼后裔采集器或者是Python当中的爬虫包.数据抓标是指直接向网页请求数据提取想要的字段,一般用Python语言实现.但是近年来随着数据安全法的不断完善,爬虫基本上是面向监狱的编程.所以的话就出现了第4种正规的爬虫,也就是请求api的方式,是指约定规则后给了一个访问地址,在规则内获取对方允许的数据.

对于处理数据的话,我们是要把脏数据变成干净的,数据往往是由数据工程师来完成直接把干净的数据弄到数据库中。制作图表的话,常常用的是透视表和各种报表。对于一些非量化的部分,需要我们和数据放在一起来考虑,最常见的来测试的方法是ab测试,大多数的公司会考察这方面的知识,能体现一名分析师的专业积累。要记住分析师他的职能,不单单是分析往往,行百里者半90,真正的高级管理岗没有职能划分,都是分明各个业务线,所以的话如果在后面的工作机会中有去跟进具体的场景落地并得到及时的反馈的机会,一定要去大胆尝试,把你认同的东西推进下去永远是正确的,你想做个普薪执行层还是一个高薪管理层。

在数据领域往往有5个理论基础一定不能忽略,分别是大数定律,罗卡定律,幸存者偏差,辛普森悖论和帕累托最优。大数定律是指。

所以说当分析的样本小的时候,得出的结论会失效,这是客观的规律,不会因为人的抑制而发生转移,我们常常会采用这样的方式来解决。

罗卡定律是指凡有接触必有痕迹,去获取挖掘去挖掘更多的数据。

幸存者偏差:

辛普森悖论一定要确保数据在同一量级和权重下再进行分析。

帕累托最优是资源分配的理想状态。

数据领域当中的分析,框架是MCE法则及相互独立,完全穷尽,一个个清晰有效又没有遗漏的单元。

4种拆解方法,第1个是时间流程法,第2个是模型框架法,第3个是量化公式法,第4个是穷尽要素法。第1个时间流程法,常见的是漏斗分析,经典的是AARRR模型,当然还有PDCA和精益创业模型

而PDCA模型是指P是指计划D是指执行,C是指检查,A是指处理,精益创业的话它是用 idea来建造产品,产品用用来测试数据,数据又用来学习新的想法.

模型框架法常用的是SWOT和RFM

量化公式法也就是公式来进行量化数据.量化问题为数据,当中要注重属性、绝对值和转换率。属性是指描述分析对象有哪些特征,绝对值是指衡量一件事最后的结果,转换率是指衡量一个环节的完成度。

穷尽要素法典型的是电商平台的八大人群,当然使用该方法一般是经验丰富的分析师.

往往在企业当中面对一个业务,我们要进行诊断,可以从这4个方面快速构造出诊断模型。

相关推荐
垂杨有暮鸦⊙_⊙27 分钟前
阅读《先进引信技术的发展与展望》识别和控制部分_笔记
笔记·学习
埋头编程~1 小时前
【C++】踏上C++学习之旅(十):深入“类和对象“世界,掌握编程黄金法则(五)(最终篇,内含初始化列表、静态成员、友元以及内部类等等)
java·c++·学习
开利网络2 小时前
数字化转型:企业降本增效的关键之路
大数据·物联网·搜索引擎·信息可视化·1024程序员节
世伟爱吗喽3 小时前
NUXT3学习日记四(路由中间件、导航守卫)
学习
飞凌嵌入式4 小时前
飞凌嵌入式旗下教育品牌ElfBoard与西安科技大学共建「科教融合基地」
嵌入式硬件·学习·嵌入式·飞凌嵌入式
Elastic 中国社区官方博客6 小时前
使用 Elastic AI Assistant for Search 和 Azure OpenAI 实现从 0 到 60 的转变
大数据·人工智能·elasticsearch·microsoft·搜索引擎·ai·azure
Francek Chen8 小时前
【大数据技术基础 | 实验十二】Hive实验:Hive分区
大数据·数据仓库·hive·hadoop·分布式
Red Red9 小时前
网安基础知识|IDS入侵检测系统|IPS入侵防御系统|堡垒机|VPN|EDR|CC防御|云安全-VDC/VPC|安全服务
网络·笔记·学习·安全·web安全
Natural_yz11 小时前
大数据学习17之Spark-Core
大数据·学习·spark
qq_1728055911 小时前
RUST学习教程-安装教程
开发语言·学习·rust·安装