数据科学与大数据（2）

数据分析，要从能解决问题，常常解决的问题有4个问题:1.是什么？2.为什么?3.怎么做?4.做多少?，然后第3点和第4点往往是三年以上的数据分析师来干的，刚进入的小白往往是从事第1类和第2类问题。第1类问题是用数据去量化企业当前的经营状现状或者业务事实，从业务的细节到数据再到图表，再到业务到底发生了什么？数据往往是数据库，图表是图和表以及看板。第2类问题为什么是指异常差距背后的原因要用分析的方法来进行拆解，得出原因，得出数据，得出相关性并且要验证。第3类问题是行动策略上，第4类问题是指找方向对抗未知的，在已有的方向上进行各种计算，从业务的目标，绩效的方案，业务模型等等来找出解决方案

第1种和第2种是什么、为什么。第1步往往是确定问题，确定你的目的背景和思路，我们可以用这样的语言来进行目的明确程度:因为加背景，我想加目的，现在加思路，最后加感谢。

思考问题往往包括确定问题，拆解问题，量化问题，分析数据，又包括收集数据处理数据制作图表上传发布，输出结论又包括一句话加一幅图，很多复杂问题的本质非常简单，图片要易于理解，炫技不可取

判断是否自己达标

数据的格式往往有日期，字符串，数字。

统计口径:啥时候一个数据才算有效数据。

这里获取数据常用的爬虫主要有4个方面，一个是模拟操作,网页解析和数据抓包以及请求API,模拟操作是用程序替代了机械重复的工作，网页解析是解析网页的源码工具，常用的有八爪鱼后裔采集器或者是Python当中的爬虫包.数据抓标是指直接向网页请求数据提取想要的字段，一般用Python语言实现.但是近年来随着数据安全法的不断完善，爬虫基本上是面向监狱的编程.所以的话就出现了第4种正规的爬虫，也就是请求api的方式，是指约定规则后给了一个访问地址，在规则内获取对方允许的数据.

对于处理数据的话，我们是要把脏数据变成干净的，数据往往是由数据工程师来完成直接把干净的数据弄到数据库中。制作图表的话，常常用的是透视表和各种报表。对于一些非量化的部分，需要我们和数据放在一起来考虑,最常见的来测试的方法是ab测试,大多数的公司会考察这方面的知识，能体现一名分析师的专业积累。要记住分析师他的职能，不单单是分析往往，行百里者半90，真正的高级管理岗没有职能划分，都是分明各个业务线，所以的话如果在后面的工作机会中有去跟进具体的场景落地并得到及时的反馈的机会，一定要去大胆尝试，把你认同的东西推进下去永远是正确的，你想做个普薪执行层还是一个高薪管理层。