大数据技术发展

▶1.大数据时代

美国互联网数据中心指出,互联网上的数据每年增长50%,每两年翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,这些数据并非单纯是人们在互联网上发布的信息,85%的数据由传感器和计算机设备自动生成。全世界的各种工业设备、汽车、摄像头,以及无数的数码传感器,随时都在测量和传递着有关信息,这导致了海量数据的产生。例如,一个计算不同地点车辆流量的交通遥测应用,就会产生大量的数据。

▶2.大数据的特点

大数据是一个体量规模巨大,数据类别特别多的数据集,并且无法通过目前主流软件工具,在合理时间内达到提取、管理、处理、并整理成为有用的信息。

大数据具有4V的特点,一是数据体量大(Volumes),一般在TB级别;二是数据类型多(Variety),由于数据来自多种数据源,因此数据类型和格式非常丰富,有结构化数据(如文字、计算数据等),半结构化数据(如报表、层次树等),以及非结构化数据(如图片、视频、音频、地理位置信息等);三是数据处理速度快(Velocity),在数据量非常庞大的情况下,需要做到数据的实时处理;四是数据的真实性高(Veracity),如互联网中网页访问、现场监控信息、环境监测信息、电子交易数据等。

大数据并不在于"大",而在于"有用"。大数据能告诉我们客户的消费倾向,他们喜欢什么,每个人的需求有哪些区别,哪些需求可以集合在一起进行分类等。大数据是数据数量上的增加,是一个从量变到质变的过程。例如,一个人在骑马,我们每隔一分钟拍一张照片,只能看到这个人不同骑马姿态的照片。随着照相机处理速度越来越快,1min可以拍30张照片时,就产生了电影。当数量的增长实现了质变时,就从照片变成了一部电影。

▶3.大数据处理技术

大数据处理的结果往往采用可视化图形表示,基本原则是:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法很多,主要处理流程是数据采集、数据导入和预处理、数据统计和分析、数据挖掘。

1)大数据采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器等)的数据。大数据采集的特点是并发数高,因为可能会有成千上万的用户同时进行访问和操作。例如火车票售票网站和淘宝网站,它们并发访问量在峰值时达到了上百万,所以需要在采集端部署大量数据库才能支持数据采集工作,这些数据库之间如何进行负载均衡也需要深入思考和仔细设计。

2)大数据导入/预处理

要对采集的海量数据进行有效的分析,还应该将这些来自前端的数据导入一个集中的大型分布式数据库中,并且在导入基础上做一些简单的数据清洗和预处理工作。导入与预处理过程的特点是数据量大,每秒钟的导入量经常会达到百兆,甚至千兆。可以利用数据提取、转换和加载工具将分布的、异构的数据(如关系数据、图形数据等)抽取到临时中间层后进行清洗、转换、集成,最后导人数据库中。

3)大数据统计分析

统计与分析主要是对存储的海量数据进行普通的分析和分类汇总,常用的统计分析有假设检验、显著性检验、差异分析、相关分析、方差分析、回归分析、曲线估计、因子分析、聚类分析、判别分析等技术。统计与分析的特点是涉及的数据量大,对系统资源,特别是I/O设备会有极大的占用。

4)数据挖掘

大数据只有通过数据分析才能获取很多深入的、有价值的信息。大数据分析最基本的要求是可视化分析,因为可视化分析能够直观的呈现大数据的特点,同时能够非常容易被读者接受。数据挖掘主要是在大数据基础上进行各种算法的计算,从而起到预测的效果。数据挖掘的方法有分类、估计、预测、相关性分析、聚类、描述和可视化等,复杂数据类型挖掘(如Web、图像、视频、音频等)等。这个过程的特点是:如果数据挖掘算法很复杂,涉及的数据量和计算量就会很大,常用数据挖掘算法都以多线程为主。

4.大数据应用案例

谷歌搜索、Facebook的帖子和微博消息,使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,可以从凌乱纷繁的数据背后,找到更符合用户兴趣和习惯的产品和服务,并对这些产品和服务进行针对性的调整和优化,这就是大数据的价值。

相关推荐
数据智能老司机2 分钟前
构建 Medallion 架构——数据架构的演进
大数据·架构·数据分析
智海观潮3 分钟前
学好Spark必须要掌握的Scala技术点
大数据·spark·scala
数据智能老司机3 分钟前
构建 Medallion 架构——深入解读Medallion架构
大数据·架构·数据分析
无妄无望30 分钟前
docker学习 (3)网络与防火墙
网络·学习·docker
●VON1 小时前
重生之我在大学自学鸿蒙开发第七天-《AI语音朗读》
学习·华为·云原生·架构·harmonyos
凯禾瑞华养老实训室1 小时前
智慧养老实训室建设指南:厂家的产品选型与应用建议
大数据·人工智能·ar·vr·虚拟仿真·智慧健康养老服务与管理
德昂信息dataondemand1 小时前
开好经营月会:如何把数据变成决策的利器?
大数据·人工智能·abi·经营月会
ajax_beijing2 小时前
hadoop的三副本数据冗余策略
大数据·hadoop·分布式
程序员东岸3 小时前
避坑修链表:从顺序表到单链表的那点事儿(含可跑示例与小项目串联)
数据结构·笔记·学习·程序人生·链表
future14123 小时前
C++ 学习日记
开发语言·c++·学习