数据科学与大数据(学习记录)

这个专业或者方向,这个行业有一句话叫做工具决定下限,分析决定上限。通过数据解决问题的思路是最重要的,对于这类型人才.数据具有四大特性,一个是可以反复使用,一个是客观,量化,机器可处理.常见的分析流程,首先是数据的真实性,第2个是量化的问题,结合场景拆分导致问题的原因,第3个流程根据原因从数据库当中弄到可用的数据。第4个,用sql把数据提取出来,第5个用Excel或者Tablean等工具进行处理和可视化,可能会使用一些算法模型做辅助,最后一个从各种因素中总结原因输出有效结论.刚刚说了,数据的四大特性当中有一个叫做量化,而数据分析就是基于量化提升生产力.近些年随着数据的爆发,越来越多的公司,开始招收数据方向的人才。而在这个过程当中,由于对数据方向的人才认知不准确,往往叫他们既当开发,又当产品,又当分析师,既要让他们对数据库获取数据进行分析,又要他们理解需求,又甚至要叫他们写代码.从而导致了本身人手不足,时间不够,思路就不会深入数据的质量就难以提升,就会出现一些常见的问题,例如数据的缺失,该有的数据,你没有该思考的方向,没有思考到第2个是口径模糊,你不知道一个数据的指标具体的定义是什么?第3个就是业务不落地,要么就是从已知,要么就是根本就没办法实行.而成熟的数据团队,应该由三部分组成,分别为业务开发和算法,尤其是业务和开发,业务中又包含数据,运营数据,专员,数据分析师,具体如下图

所以说这个方向即可以走开发,也可以走业务,甚至可以走算法

低成本享受高质量的数据服务

相关推荐
SelectDB18 小时前
易车 × Apache Doris:构建湖仓一体新架构,加速 AI 业务融合实践
大数据·agent·mcp
武子康1 天前
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)
大数据·后端·mysql
IvanCodes1 天前
一、消息队列理论基础与Kafka架构价值解析
大数据·后端·kafka
武子康2 天前
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
大数据·后端·apache hive
字节跳动数据平台3 天前
5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
武子康3 天前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive
字节跳动数据平台4 天前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术4 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康4 天前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康5 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive