大数据技术发展

▶1.大数据时代

美国互联网数据中心指出,互联网上的数据每年增长50%,每两年翻一番,目前世界上90%以上的数据是最近几年才产生的。此外,这些数据并非单纯是人们在互联网上发布的信息,85%的数据由传感器和计算机设备自动生成。全世界的各种工业设备、汽车、摄像头,以及无数的数码传感器,随时都在测量和传递着有关信息,这导致了海量数据的产生。例如,一个计算不同地点车辆流量的交通遥测应用,就会产生大量的数据。

▶2.大数据的特点

大数据是一个体量规模巨大,数据类别特别多的数据集,并且无法通过目前主流软件工具,在合理时间内达到提取、管理、处理、并整理成为有用的信息。

大数据具有4V的特点,一是数据体量大(Volumes),一般在TB级别;二是数据类型多(Variety),由于数据来自多种数据源,因此数据类型和格式非常丰富,有结构化数据(如文字、计算数据等),半结构化数据(如报表、层次树等),以及非结构化数据(如图片、视频、音频、地理位置信息等);三是数据处理速度快(Velocity),在数据量非常庞大的情况下,需要做到数据的实时处理;四是数据的真实性高(Veracity),如互联网中网页访问、现场监控信息、环境监测信息、电子交易数据等。

大数据并不在于"大",而在于"有用"。大数据能告诉我们客户的消费倾向,他们喜欢什么,每个人的需求有哪些区别,哪些需求可以集合在一起进行分类等。大数据是数据数量上的增加,是一个从量变到质变的过程。例如,一个人在骑马,我们每隔一分钟拍一张照片,只能看到这个人不同骑马姿态的照片。随着照相机处理速度越来越快,1min可以拍30张照片时,就产生了电影。当数量的增长实现了质变时,就从照片变成了一部电影。

▶3.大数据处理技术

大数据处理的结果往往采用可视化图形表示,基本原则是:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法很多,主要处理流程是数据采集、数据导入和预处理、数据统计和分析、数据挖掘。

1)大数据采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器等)的数据。大数据采集的特点是并发数高,因为可能会有成千上万的用户同时进行访问和操作。例如火车票售票网站和淘宝网站,它们并发访问量在峰值时达到了上百万,所以需要在采集端部署大量数据库才能支持数据采集工作,这些数据库之间如何进行负载均衡也需要深入思考和仔细设计。

2)大数据导入/预处理

要对采集的海量数据进行有效的分析,还应该将这些来自前端的数据导入一个集中的大型分布式数据库中,并且在导入基础上做一些简单的数据清洗和预处理工作。导入与预处理过程的特点是数据量大,每秒钟的导入量经常会达到百兆,甚至千兆。可以利用数据提取、转换和加载工具将分布的、异构的数据(如关系数据、图形数据等)抽取到临时中间层后进行清洗、转换、集成,最后导人数据库中。

3)大数据统计分析

统计与分析主要是对存储的海量数据进行普通的分析和分类汇总,常用的统计分析有假设检验、显著性检验、差异分析、相关分析、方差分析、回归分析、曲线估计、因子分析、聚类分析、判别分析等技术。统计与分析的特点是涉及的数据量大,对系统资源,特别是I/O设备会有极大的占用。

4)数据挖掘

大数据只有通过数据分析才能获取很多深入的、有价值的信息。大数据分析最基本的要求是可视化分析,因为可视化分析能够直观的呈现大数据的特点,同时能够非常容易被读者接受。数据挖掘主要是在大数据基础上进行各种算法的计算,从而起到预测的效果。数据挖掘的方法有分类、估计、预测、相关性分析、聚类、描述和可视化等,复杂数据类型挖掘(如Web、图像、视频、音频等)等。这个过程的特点是:如果数据挖掘算法很复杂,涉及的数据量和计算量就会很大,常用数据挖掘算法都以多线程为主。

4.大数据应用案例

谷歌搜索、Facebook的帖子和微博消息,使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,可以从凌乱纷繁的数据背后,找到更符合用户兴趣和习惯的产品和服务,并对这些产品和服务进行针对性的调整和优化,这就是大数据的价值。

相关推荐
Unbelievabletobe11 分钟前
解决了股票api接口盘后数据更新慢的问题
大数据·开发语言·python
sulikey2 小时前
个人Linux操作系统学习笔记6 - 操作系统与进程初识
linux·笔记·学习·操作系统·进程
Promise微笑2 小时前
2026年中国驱鸟器市场格局与主流品牌技术
大数据·人工智能
unicorn312 小时前
学习学习学习
学习
XGeFei3 小时前
【Fastapi学习笔记(3)】——资源的层级关系、安全性-幂等性、Field、工厂函数
笔记·学习·fastapi
幽络源小助理4 小时前
最新知识付费系统网站源码 PC+H5双端 附安装教程 – 幽络源源码网
大数据·数据库
luweis4 小时前
企智孪生 ETA(3.3 认知算法层:ETA 的思维内核 3.4 基础架构:算力与弹性)【浙江联保网络 卢伟舜】
大数据·运维·线性代数·ai·矩阵·学习方法
星恒随风4 小时前
Python 基础语法详解(一):从表达式、变量到数据类型
开发语言·笔记·python·学习
暴躁小师兄数据学院5 小时前
【AI大数据工程师特训笔记】第14讲:Linux操作系统与shell脚本
大数据·人工智能·笔记