数据分析中大数据和云计算

大数据和云计算

前言
一、大数据
二、大数据定义
三、数据存储单位
四、大数据存储技术
五、大数据应用技术
六、大数据特征
七、数据容量
八、数据类型的多样性
九、获取数据的速度
十、可变性
十一、真实性
十二、复杂性
十三、价值
十四、云计算
十五、云计算概念
十六、云计算服务类型
- 云计算服务类型

前言

大数据和云计算作为当代信息技术的两大核心驱动力，正在以前所未有的速度改变着我们的生活、工作和思维方式。它们不仅为各行各业的创新提供了强大的技术支持，更是推动了整个社会的数字化转型。

从大数据的角度来看，它的核心价值在于通过对海量数据的收集、存储、分析和挖掘，发现其中的关联性和趋势，从而为决策提供更为科学、精准的依据。无论是商业领域的市场预测、消费者行为分析，还是公共服务领域的城市规划、交通管理，大数据都发挥着不可或缺的作用。同时，随着物联网、传感器等技术的普及，大数据的来源和种类也在不断扩展，这使得我们能够更全面地认识世界，把握规律。

而云计算则为大数据的处理提供了强大的计算能力和存储空间。通过云计算的虚拟化技术，我们可以将分散的硬件资源集中起来，形成一个动态可扩展的计算平台，满足大数据处理对计算能力和存储空间的高要求。同时，云计算的按需付费模式也大大降低了企业的运营成本，使得更多的企业和个人能够享受到大数据带来的便利。

大数据和云计算的结合，不仅促进了信息技术的发展，更推动了各行各业的创新。例如，在医疗领域，通过大数据分析和云计算技术，我们可以实现对患者病情的精准诊断和个性化治疗；在金融领域，通过大数据分析和云计算技术，我们可以提高风险防控的精准度和效率；在教育领域，通过大数据分析和云计算技术，我们可以实现个性化教学和学习资源的优化配置。

当然，大数据和云计算的发展也面临着一些挑战。如何保障数据安全、隐私保护、防止数据滥用等问题亟待解决。同时，随着技术的不断进步和应用领域的不断拓展，我们也需要不断更新和完善相关的法律法规和伦理规范，确保大数据和云计算技术的健康发展。

总之，大数据和云计算作为当代信息技术的两大核心驱动力，正在深刻改变着我们的生活、工作和思维方式。我们应该充分利用它们的优势，推动各行业的创新和发展，同时关注并解决其带来的挑战和问题，共同构建一个更加智能、高效、可持续的未来社会。

一、大数据

大数据是指所涉及的数据量规模巨大到无法通过人脑或主流数据分析软件工具，在合理时间内达到提取，管理，处理，和整理成为帮助企业经营者进行决策的数据。

相对于传统的数据收集和分析流程,大数据就是数据量非常大,数据种类繁多,无法用常规方法对数据进行集成。现实中,大数据的收集,开发,和利用已经成为了当今数据分析领域最热门研究主题之一。人们都认为，掌握大数据的分析应用技术，将对于政府和企业的决策具有非常积极的帮助，其影响也是非常深远的。

大数据技术的战略意义不仅仅在于掌握庞大的数据信息,而还需要在于对这些含有意义的数据进行专业化处理。从另外一个角度来看,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的"加工能力"实现数据的"增值"。所谓加工能力就是处理大数据的整体过程,包括大数据采集，入库，在线分析。

大数据时代的到来，无疑给我们的生活带来了翻天覆地的变化。数据的海洋无边无际，其潜藏的价值与智慧，正逐渐地被人类发掘和利用。从商业决策到城市管理，从医疗健康到教育科研，大数据都在以其独特的魅力，改变着世界的运行方式。

在商业领域，大数据的运用已经深入到了各个环节。企业可以通过对海量数据的分析，精准把握市场需求，优化产品设计和生产流程，提高营销效率和客户满意度。大数据不仅帮助企业实现了个性化服务和精细化运营，更在一定程度上重塑了商业生态和竞争格局。

在城市管理方面，大数据也发挥着越来越重要的作用。通过收集和分析交通、环境、公共安全等各方面的数据，城市管理者可以更加科学地进行规划和决策，提高城市运行的效率和安全性。大数据让城市管理变得更加智能和精细化，为城市的可持续发展提供了有力支持。

在医疗健康领域，大数据的应用更是为人们的健康福祉带来了前所未有的改变。通过对海量医疗数据的挖掘和分析，医生可以更加准确地诊断疾病，制定个性化的治疗方案，提高治疗效果。同时，大数据还有助于预测和预防疾病的发生，为人们的健康保驾护航。

而在教育科研领域，大数据则为我们打开了探索未知世界的新窗口。通过对海量科研数据的分析，研究人员可以发现新的科学规律，推动科技进步和创新发展。大数据的应用不仅加速了科研成果的产出，也为培养创新型人才提供了有力支撑。

然而，大数据的发展也面临着一些挑战和问题。如何在保护个人隐私的同时充分利用数据资源？如何确保数据的质量和安全性？如何培养具备大数据分析能力的专业人才？这些问题都需要我们认真思考和解决。

展望未来，随着技术的不断进步和应用的深入拓展，大数据将在更多领域发挥更大的作用。我们期待在大数据的引领下，能够构建一个更加智能、高效、可持续的未来社会。

二、大数据定义

大数据定义:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。

由于大数据不能用传统的类似于抽样调查之类的随机分析法获取数据,而采用对所有数据都进行分析处理。大数据的基本定义是一种规模大到在获取,存储,管理,和分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模,快速的数据流转,多样的数据类型,和价值密度低四大特征。

三、数据存储单位

为了深入理解数据大小概念,我们接下来讨论数据存储的单位。对于二进制计算机来说，最小的基本单位是位（bit），电脑记忆中最小的单位，在二进制电脑系统中,每一位(bit)可以代表0或1的数位讯号。

一个字节(Byte)由8个位(bit)所组成,可代表计算机键盘上的字元,英文字母A到Z,数字0到9,和各种符号,是记忆体储存资料的基本单位。如果要表达中文字则须要两个字节。

汉字的字长是指汉字的长度,转换关系如下:
1字节（byte） = 8位（bit）
1汉字 = 2字节= 16位(bit)

当记忆体容量过大时，位这个单位就不够用，因此就有千位的单位，用KB表示,以下是各个记忆体计算单位之间的关系:
1 Byte = 8 Bits
1 KB = 1024 Bytes
1 MB = 1024 KB
1 GB = 1024 MB

它们是按照进率1024（2的十次方）来计算。下面我们讨论大数据存储单位，TB，PB, EB,ZB,YB, DB的关系：
1 TB = 1, 024 GB
1 PB = 1, 024 TB
1 ΕB = 1, 024 PB
1 ZB = 1, 024 ΕB
1 YB = 1, 024 ZB
1 BB = 1, 024 YB
1 NB = 1, 024 BB
1 DB = 1, 024 NB

我们以PB为例说明这些存储单位，根据换算，1PB-2的50次方，地球上所有印刷材料大约200PB。今天我们讨论的大数据其实是发生在2000年后，因为信息交换，信息存储，信息处理三个方面能力的大幅增长而产生的数据。

首先，信息交换，根据估算，从1986年到2007年这20年间，地球上每天可以通过既有信息通道交换的信息数量增长了约217倍,这些信息的数字化程度,则从1986年的约20%增长到2007年的约99.9%。在数字化信息爆炸式增长的过程里，每个参与信息交换的节点都可以在短时间内接收并存储大量数据。
其次,信息存储,全球信息存储能力大约每3年翻一番。从1986年到2007年这20年间,全球信息存储能力增加了约120倍,所存储信息的数字化程度也从1986年的约1%增长到2007年的约94%。1986年时,即便用上我们所有的信息载体、存储手段,我们也不过能存储全世界所交换信息的大约1%,而2007年这个数字已经增长到大约16%。信息存储能力的增加为我们利用大数据提供了近乎无限的想象空间。
最后,有了海量的信息获取能力和信息存储能力,我们也必须有对这些信息进行整理,加工和分析的能力。大数据分析的目标是从数据中提取有价值的信息，从而形成对业务有帮助的结论和发现。

四、大数据存储技术

由于大数据是指那些数量巨大,难于收集,处理,和分析的数据集,大数据存储是将这些数据集持久化到计算机中。存储是大数据分析的第一步。为满足大数据存储需求,存储机制已经形成从传统数据管理系统到非结构化数据管理（NOSQL技术）的结构化转移。

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储,网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。

非关系型数据库技术通常可以理解为对关系型数据库的一个有力补充。非关系型数据能够拥有存储类似声音和图像的非结构化数据，非关系型数据库的典型代表有Mongodb, Redis,和Neo4j。

Mongodb是一个基于分布式文件存储的数据库,为互联网应用提供可扩展的高性能数据存储解决方案。

Redis是一个高性能的键值对数据库, Neo4j是高性能的图形数据库。

五、大数据应用技术

大数据应用技术包括用于发现数据价值的数据挖掘技术,人工智能领域的自括然语言处理技术,社交网络分析技术,以及数据可视化技术。

大数据挖掘技术有分类，聚类，回归预测，和关联规则这些领域。

自然语言处理的研究领域包括机器翻译,主题模型,情感分析与意见挖掘,智能问答与对话系统，个性化推荐，和机器写作。

社交网络分析的主要目标是对社交网络中用户关系的预测与分析。

六、大数据特征

大数据的特征首先就是数据规模大。随着互联网,物联网,移动互联技术的发展,人和物的所有轨迹都可以被记录下来,数据呈现出爆发性增长。一般认为,大数据主要具有以下几个方面的典型特征,
1. 数据量巨大，
2. 数据呈现多样性，
3. 数据获取的速度快,
4. 数据的价值密度低。

七、数据容量

数据量大是大数据能够运行的基础,统计分析也要求数据量大,数据量小不符合大数据的原则。因为个体都是有差异的,数据量足够大才可以避免因个体差异带来的偏差。

多大的数据才是大数据?

目前一般笔记本硬盘最大的容量也就在1TB这个级别,但是从大数据角度来看数据很可能超过该规模。比TB级还大的数据计量单位还
1PB=1024TB,
1EB=1024PB,
1ZB=1024EB,
1YB=1024ZB.

到目前为止,业界尚未有一个公认的标准来界定"大数据"的大小。换句话说, "大"只是表示大数据容量的特征,并非全部含义。

所以,大数据是一个抽象的概念,是我们面临的数据无法存储,无法计算的状态,大数据的容量是没有边界的。

八、数据类型的多样性

大数据的数据类型不仅仅是单一的文本或数字信息,还包括越来越多的非结构化,半结构化数据,例如,互联网的网络日志,音频,图片,视频,地理位置信息。

针对不同的应用,这些数据的采集可以通过表格格式, HTML网页格式, XML格式,资源描述框架(RDF)数据格式,文本数据格式,图片格式,多媒体数据格式来获得。这些数据可以划分成结构化数据,非结构化数据和半结构化数据等不同类型。

结构化数据

结构化数据，可以从名称中看出，是高度组织和整齐格式化的数据。结构化数据通常对应表格数据结构和SQL的数据类型,可使用关系型数据库表示和存储。

一般特点是数据以行为单位,一行数据表示一个实体的信息，每一行数据的属性是相同的。

结构化数据的存储和排列是很有规律的，便于查询和修改等操作。在计算机中可以轻松地搜索,但是在日常管理中可能不是大家最容易找到的数据类型。

结构化数据缺点是扩展性不够灵活。在实际使用中反复进行表结构变更是不可取的,这也容易导致后台接口从数据库取数据出错。

另一方面,结构化数据比较适合处理定量数据,是能够用统一的结构加以表示的信息，例如，数字或符号。一般使用关系型数据库保存和管理这些数据，当使用结构化查询语言(SQL)时,计算机程序很容易获取这些数据。结构化数据具有的明确的关系使得这些数据使用起来十分方便,但是在商业上可挖掘价值方面就比较低。常见的结构化数据包括银行卡号码，日期，存款金额，电话号码，地址，产品名称等。

半结构化数据

半结构化数据是结构化数据的一种形式，但它并不符合关系型数据库或其他表格结构的形式。半结构化数据是以树或者图的数据结构存储的数据 。标签是树的根节点和子节点。通过这样的数据格式,可以自由地表达很多有用的信息。所以,半结构化数据的扩展性是比较好的。

常见的半结构数据有日志文件,HTML,XML和JSON文档。

非结构化数据

非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。可以说非结构化数据是结构化数据之外的一切数据,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。

非结构化数据技术不仅可以处理结构化数据而且更适合处理非结构化数据 ,例如，全文文本，图象，声音，影视，超媒体等信息。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NOSQL语言进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单的说,非结构化数据就是字段可变的的数据。

九、获取数据的速度

大数据具有一定的时效性，数据是不停变化的，体现在两个方面，

一是随时间变化,数据量逐渐增大,
另一方面在空间上不断移动变化的数据。

如果采集到的数据不经过流转,最终会过期作废。客户的体验在分秒级别,海量的数据,带来的第一个问题就是大大延长了各类报表生成时间。

我们能否在极短的时间内提取最有价值的数据十分重要 。如果数据处理软件达不到"秒"处理,所带来的商业价值就会大打折扣。这就是大数据处理速度方面的一个著名的"1秒定律",即要有秒级时间范围内给出分析结果,超出这个时间，数据就失去价值了。

十、可变性

大数据的可变性妨碍了处理和有效地管理数据的过程,为什么会出现这种情况?

由于数据的多义性,数据在处理过程中发生了变化,这意味着相同的数据在不同的上下文中可能具有不同的含义。

在进行情感分析时,这一点非常重要,即分析算法能够理解上下文并发现该上下文中数据的确切含义。

十一、真实性

大数据的真实性指的是数据的质量问题,例如,数据的可信度,偏差,噪声和异常值的情况。那么怎样保障大数据的数据质量呢？

根据大数据的收集和处理过程,一般分为事前预设,事中监控，事后改善三个阶段来实施。

大数据中出现损坏的数据很常见。它可能由多种原因而产生，例如，拼写错误,语法缺失或不常见的缩写,数据重新处理和系统故障等。但是,忽略这些损坏数据可能会导致数据分析不准确，最终导致错误的决策。因此，确保数据正确，对于大数据分析非常重要。

十二、复杂性

大数据由于数据量巨大,并且其来源渠道多,导致传统的数据处理和分析技术难以应对。具体来说,这些挑战大多来自数据本身的复杂性,计算的复杂性和信息系统的复杂性。

首先,我们要面对数据复杂性 。
图文检索,主题发现,语义分析,情感分析等数据分析工作都具有极大挑战性,其原因是大数据涉及复杂的类型,复杂的结构和复杂的模式,数据本身也具有很高的复杂性。
第二,我们还要考虑计算复杂性 。
大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂，价值密度分布极不均衡，这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂度的计算也难以实现,而且,由于数据分布的稀疏性,
可能做了许多无效计算。
第三,系统复杂性引起的复杂性 。
大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率,能耗间的关系,还要综合度量系统的吞吐率,并行处理能力,作业计算精度,作业单位能耗等多种效能因素。

十三、价值

大数据的价值是从数据分析中获得的知识。大数据的价值在于组织如何将自己转变为大数据驱动型公司,并利用大数据分析的洞察力来决策。具体来说,企业利用大数据有下述3方面可作为。

对消费者提供产品或服务的企业可以利用大数据进行精准营销,精准有效地将供需双方建立联系。
做小而美模式的中长尾企业,可以利用大数据做服务转型,更好的利用的数据提高服务质量和效率。
面临互联网压力之下必须转型的传统企业,需要与时俱进充分利用大数据的价值,例如,考虑开设网店和网络服务平台。用大数据,以低成本创造高价值。

十四、云计算

大数据具有数据规模大,数据类别复杂,数据处理速度快,数据真实性高,数据蕴藏价值的特点,对于大数据的处理和挖掘很大程度上需要依赖于云计算平台的分布式处理,分布式数据库,云存储和虚拟化技术。

云计算和大数据是相辅相成关系,从应用角度来讲,大数据离不开云计算,因为大规模的数据运算需要很多计算资源;大数据是云计算的应用案例之一,云计算是大数据的实现工具之一。

大数据说的是一种移动互联网和物联网背景下的应用场景,各种应用产生的巨量数据,需要处理和分析,挖掘有价值的信息 ;云计算说的是一种技术解决方案，就是利用这种技术可以解决计算、存储、数据库等一系列IT基础设施的按需构建的需求。两者并不是同一个层面的东西 。

十五、云计算概念

什么"云"?

家庭使用集中供应的自来水,冬季使用集中供应的暖气,就是"云"的基本概念,过去企业数据维护需要恒温恒湿的机房、一排排服务器以及专业的维护人员。现在云服务器成为了公司"隐形的机房",由云服务器的提供者负责维护事宜。简单来说,配备了阿里云,就是阿里云的技术团队在维护服务器的安全云计算是分布式计算的一个分支，指的是通过网络"云"将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。

云计算模式分为公有云,私有云,和混合云,我们进行简单介绍。

公有云通常指第三方提供商提供给用户能够使用的云，公有云一般可通过Internet 使用，可能是免费或成本低廉的。这种云有许多实例，可在当今整个开放的公有网络中提供服务。公有云的最大意义是能够以低廉的价格,提供有吸引力的服务给最终用户,创造新的业务价值,私有云是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制。该公司拥有基础设施,并可以控制在此基础设施上部署应用程序的方式。
私有云极大的保障了安全问题,目前有些企业已经开始构建自己的私有云。
混合云是公有云和私有云两种服务方式的结合。由于安全和控制原因,并非所有的企业信息都能放置在公有云上,这样大部分已经应用云计算的企业将会使用混合云模式。很多将选择同时使用公有云和私有云，有一些也会同时建立公众云。因为公有云只会向用户使用的资源收费,所以集中云将会变成处理需求高峰的一个非常便宜的方式。

云计算可以在很短的时间内完成对数以万计的数据的处理,从而达到强大的网络服务。目前阶段的云服务已经不仅仅是一种分布式计算,而是综合分布式计算,效用计算,负载均衡,并行计算,网络存储,热备份冗余和虚拟化等计算机技术混合演进并跃升的结果。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。

十六、云计算服务类型

云计算主要就是对计算资源进行灵活有效的管理和分配,这些资源主要包含计算资源,存储资源,网络资源三个方面。

那什么是计算资源？对于一个笔记本电脑来说，计算资源是CPU，存储资源是硬盘，由于内存是CPU和硬盘之间的桥梁,它的性能制约着整个计算机的性能,相当于网络资源。

云计算的计算资源不是单体物理资源。也就是说,不会租一台物理服务器给你。大部分云计算资源，都是虚拟化了的资源。虚拟化就是在物理资源的基础上，通过软件平台,封装成虚拟的计算资源。虚拟化的好处,就是让计算资源变得更加容易选择，调用更加灵活。

从管理角度来看,云计算具有弹性伸缩特点 。云计算的计算资源,可以按需付费。你想要用多少，就租多少，配置是支持自定义的。如果后期因为业务增长，需要更好的配置，可以加钱买更多资源。

增加资源的过程，基本上是平滑升级。尽可能减小对业务的影响，也不需要进行业务迁移。如果某项业务的负荷下降,你也可以选择弹性收缩,降低配置,节约资金。

云计算服务类型

由于云计算既然是一种资源提供方式,那么,就可以根据模型的层级,提供不同等级的资源。云计算服务类型基本上可以分为3个层次。

第一层次,是最底层的硬件资源,主要包括CPU (计算资源) ,硬盘(存储资源) ,还有网卡（网络资源）。
第二层次，高级一些，买家不打算直接使用CPU，硬盘，网卡，而是希望服务商把操作系统装好,把数据库软件装好再来使用。
第三层次,更高级一些,服务商不但要装好操作系统这些基本的软件,还要把具体的应用软件装好,例如FTP服务端软件,在线视频服务端软件等,可以直接使用服务。

以上讨论的三种层次,就是经常听到的基础设施服务(IAAS),平台服务(PAAS) ,和软件服务（SAAS)。事实上,这三种服务模型并不代表云计算的全部服务。如果你愿意,完全可以自己定义一个模型,例如存储即服务,网络即服务,编排即服务,甚至出行即服务,定位即服务。这些都充分体现了云计算服务的灵活性。