大数据概念

一、大数据概念

大数据是指无法使用常规软件工具在一定时间范围内进行捕捉、管理和处理的数据集合,需要使用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产(参考百度)。

主要解决海量数据的采集、存储和分析计算等问题;

存储单位:最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

二、特征(4V1C)

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;

种类(Variety):数据类型的多样性(网络日志、音频、视频、图片、地址位置等信息);

速度(Velocity):指获得数据的速度;

可变性(Variability):妨碍了处理和有效地管理数据的过程;

真实性(Veracity):数据的质量;

复杂性(Complexity):数据量巨大,来源多渠道;

价值(value):合理运用大数据,以低成本创造高价值;

三、大数据业务流程

首先是产品和运营提需求 ---> 大数据组搭建大数据集群、分析需求指标 --->报表可视化展示、邮件推送、大屏展示等

相关推荐
百度Geek说37 分钟前
百度APP日志处理框架升级之路
大数据·spark
yumgpkpm2 小时前
CMP (类Cloudera) CDP7.3(400次编译)在华为鲲鹏Aarch64(ARM)信创环境中的性能测试过程及命令
大数据·hive·hadoop·python·elasticsearch·spark·cloudera
hg01182 小时前
“中非咖桥 世界湘见”2025首届星沙-非洲咖啡嘉年华系列活动启动
大数据
Q26433650234 小时前
大数据实战项目-基于K-Means算法与Spark的豆瓣读书数据分析与可视化系统-基于python的豆瓣读书数据分析与可视化大屏
大数据·hadoop·机器学习·数据分析·spark·毕业设计·kmeans
yumgpkpm5 小时前
CMP平台(类Cloudera CDP7.3)在华为鲲鹏的Aarch64信创环境中的性能表现
大数据·flink·kafka·big data·flume·cloudera
大数据CLUB5 小时前
基于spark的抖音短视频数据分析及可视化
大数据·hadoop·分布式·数据分析·spark
一键三联啊5 小时前
【GIT】错误集锦及解决方案
大数据·elasticsearch·搜索引擎
武子康6 小时前
大数据-124 - Flink State:Keyed State、Operator State KeyGroups 工作原理 案例解析
大数据·后端·flink
vxtkjzxt8887 小时前
手机群控软件在游戏运营中的行为模拟技术实践
大数据
铭毅天下7 小时前
Codebuddy 实现:云端 Elasticsearch 到 本地 Easysearch 跨集群迁移 Python 小工具
大数据·elasticsearch·搜索引擎·全文检索