时光荏苒,距离上篇博客的发布已经过去2个多月了。上篇文章当中各位jy给我提了一些建议,也评论说,结尾戛然而止。原因是我认为人生的脚步从来就不是一帆风顺,结局往往是未知的。同时,我也想通过博客持续性的记录自己在数据分析师这条路上面的发展状况。上一篇博客我还是在学习数据分析师的相关技能,而这篇博客是我已经开始工作的时候,我将分享我从学习数据分析技能、秋招阶段到工作的相关经历给大家。
如何学习数据分析的技能呢?
对数据分析的理解不仅仅是技能,更是一种思维方式。它包括从数据收集到解释的过程,致力于提取有价值信息。我注重逻辑思维和问题解决能力的培养,灵活运用各种分析方法。下面我将自己的经历及理解分享给大家,有不当之处,敬请批评指正。
一、 什么是数据分析师?
我认为数据分析师是对数据的收集、整理、洞察数据、并通过旧数据预测。然后通过整理出来的报告为公司提供建议或者说为leader提供决策性的建议。但是,就目前我工作以来,每天接触以亿级为单位的数据,数据分析师往往更多的精力是投放在如何取数当中。
二、 如何提高自己的数据分析能力?
接上文,或许有人说,这不就是取数boy
吗?是的,数据分析师前期而言,就是取数boy
。由此,我为了让自己摆脱取数boy
的称号,为此给自己制定的一些理想化的计划,希望各位大佬给我提一些建议。
1. 让自己学会懂工具
- 取数能力------SQL能力
要想自己能够对数据进行处理、分析,获取数据、取出数据至关重要。因此提高自己的SQL取数能力是势在必行的。我认为仅仅在LeetCode上面刷题,远远不够。我在近期的工作当中,发现取数过程当中还伴随着逻辑,我需要写很多SQL,让其形成一张大宽表,以此对这张大宽表进行统计分析。在企业级的取数当中,数据往往是特征很多,逻辑紧密,并且数据量庞大,只能通过查看表结构观测数据。由此,因为数据量庞大,我们还得时刻注意SQL优化,防止笛卡尔积等的情况。这就需要我们对SQL有一个很深的理解,不能仅仅停留在会写SQL。
- 绘图工具------Excle、BI工具
取出数据以后,自然而然就是对数据进行分析。所以,我们需要了解一些分析工具。我目前的工作当中,因为大量的统计工作都是利用SQL进行计算,将数据拿出以后只用了Excle进行绘图。由此,我认为会用Excle,并且持续性提升对Excle的应用能力,是非常有必要的。同时,熟练使用Excle会极大的提升自己的工作效率。除此以外,BI工具也需要学习一款,例如Power BI、Tableau、FineBI等,我们可以选择一款学习,我选择的是Power BI,这个BI工具当中的核心是Dax函数,所以,后续我会继续学习Dax函数。
- 编程语言------Python
Python这门语言由于它的学习门槛比较低,同时Numpy、Pandas、matplotlib、sklearn等相关模块,可以为数据分析师提供及其敏捷的操作,也能为数据预测提供便利性。由此,我认为持续性的学习Python是有必要的。同时,学习Python的同时,我也要去继续学习数据挖掘算法。通过Python建模,进一步的去熟练Python以及算法的实际应用。
2. 让自己学会懂业务
因为在实际的分析流程当中,业务灵活多变。因此作为一个数据分析师来说,通常要自己梳理指标。梳理指标体系通常需要结合具体的业务流程。因此,这儿也就需要实际经验的积累了。同时,在此处,我们也需要有一定的统计基础,例如常用的描述性统计性信息、检验方法等内容。
3. 知识总结
我个人是一个实用主义者,注重于知识与实际工作的结合。由此呢,更多的学习内容我会根据我的实际使用情况来不断的做调整和深化。当然,关于数据分析师的各项技能,我也会积极的去了解,以便于之后的工作当中,需要用的时候,我可以及时捡起,以最小的学习成本其完成工作内容。在这份工作当中,技能方面主要是SQL(主要是Hive SQL、Gbase、MySQL等数据库)、Python、Excle为主,暂未涉及到BI工具,因为公司有自己的数据中台。下面我将对这份工作进行简单的总结。
三、总结自己的实习经历
首先,我真的感到很荣幸能够来到一个非常优秀并且非常和谐的项目组,以及我温柔的mentor。在入职之前,我在网络上检索到这家公司很多的负面信息,以及也听到已经在职的实习生的埋怨。但其实就我工作的这段时间以来,我的同事们对我非常包容,也在极力的提升我的各项能力。其次我想谈谈我在这份工作当中的提升。
1. 因为公司要求实习生每周撰写实习周报以及进行月度汇报,基于这项工作,我提升了我的总结了能力,及时发现自身的缺点,并给予改正。
2. 逻辑思维能力及目标梳理梳理能力的提升。在这份工作当中,由于自己接触的数据量及其庞大(百亿级数据量),因此通常情况下的取数都是采用Hive SQL。如果拿到业务需求之后,直接开始进行取数,将会导致取出结果和业务需求产生较大的差异。因此,在每次提数之前,我会使用Xmind进行逻辑梳理,选取特征并确定特征来源。
3. 思维缜密,对于数据这份工作,最重要的就是细致,很多时候自己的一个小差错,数据结果与目标相差巨大,从而导致分析报告误导决策。因此在进行统计分析过程当中,无论是进行机器学习建模前的特征选择工作还是日常的表模型构建工作,都应该在完成后进行回顾检查。
之后,我将出一期详细的工作时技能(Excle、SQL、机器学习、统计学相关知识)提升的笔记整理,希望能够帮助大家,敬请期待。(此外。如若文章当中有任何不当,欢迎各位jy提出,我定当接受批评,并及时改正)