大数据导论第一章作业

第一章 作业

2、请阐述把数据变得可用需要经过哪几个步骤?

答:①数据清洗。使用数据的第一步就是要将数据变成一种可用的状态。这个过程通常需要运用借助工具去实现数据转换。

②数据管理。关系数据库以规范化的行和列的形式保存数据,并可进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业应用的需求,从而长期占据市场垄断地位。NoSQL数据库的出现,有效满足了人们对非结构化数据进行管理的市场需求,并由于其本身的特点得到了非常迅速的发展。

③数据分析。使用相关的大数据处理分析技术,比如构建统计模型、统计等。为了能让分析结果更容易被人理解,还需要对分析结果进行可视化。可视化对于数据分析来说是一项非常重要的工作,如果需要找出数据的差别,就需要画图帮助人们直观理解,找出问题所在。

④数据应用。数据分析后,就得到了有价值的数据,就可以进行应用。

4、请阐述信息科技是如何为大数据时代的到来提供技术支撑的。

答:①存储设备容量不断增加。存储设备制造工艺不断升级、容量大幅增加、读写速度不断提升,提供了海量的存储空间,还大大降低了数据存储成本,进一步加快了数据量增长的速度。

②CPU处理能力大幅提升。大大提高了处理数据的能力,使我们可以更快地处理不断累积的海量数据。晶体管数目不断增加,运动频率不断提高,核心数量也逐渐增多。

③网络带宽不断增加。不断扩大网络覆盖范围,提高数据传输速率,在大数据时代,数据传输不再受网络发展初期的瓶颈制约。

6、请阐述大数据发展的3个重要阶段。

答:①大约在20世纪90年代至21世纪初,大数据发展属于萌芽期。这个阶段数据挖掘理论和数据技术逐步成熟,一些商业智能工具和技术被应用。

②大约在21世纪前十年,大数据发展属于成熟期。这个阶段Web 2.0应用迅猛发展,非结构化数据大量产生,带动了大数据技术的快速突破,形成了并行计算与分布式系统两大核心技术。

③大约在2010年以后,大数据发展处于大规模应用期。大数据应用渗透各行各业,信息社会智能化程度大幅提高。

7、请阐述大数据的"5V"特性。

答:①数据量大。大数据的起始计量单位是PB(1024TB)、EB(1024PB,约100万TB)或ZB(1024EB,约10亿TB)。

②数据类型繁多。包括网络日志、音频、视频、图片、地理位置等;各种结构化和非结构化的数据。

③处理速度快。大数据的智能化和实时性要求越来越高,对处理速度也有极严格的要求,一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即大数据的处理要符合"1 秒定律"。

④价值密度低。大数据价值密度的高低与数据总量的大小成反比。

⑤数据真实性。表明了数据的准确度和可信赖度,代表着数据的质量。

8、请阐述大数据对科学研究有什么影响。

答:在科学研究先后历经了实验科学、理论科学、计算科学和数据密集型科学四种范式。

实验科学:以记录和描述自然现象为主;

理论科学:其典型案例如牛顿三定律、麦克斯韦方程组;

计算科学:对复杂现象进行模拟仿真,其典型案例如模拟核试验;

数据密集型科学:利用计算机进行数据模拟与计算。

相关推荐
哲讯智能科技3 小时前
SAP环保-装备制造领域创新解决方案
大数据
钡铼技术物联网关3 小时前
Ubuntu工控卫士在制造企业中的应用案例
大数据·人工智能·物联网·边缘计算
闯闯桑4 小时前
scala 中的@BeanProperty
大数据·开发语言·scala
闯闯桑4 小时前
Scala 中的隐式转换
大数据·scala
用户Taobaoapi20146 小时前
淘宝商品列表查询 API 接口详解
大数据
涛思数据(TDengine)7 小时前
taosd 写入与查询场景下压缩解压及加密解密的 CPU 占用分析
大数据·数据库·时序数据库·tdengine
DuDuTalk7 小时前
DuDuTalk接入DeepSeek,重构企业沟通数字化新范式
大数据·人工智能
大数据追光猿7 小时前
Qwen 模型与 LlamaFactory 结合训练详细步骤教程
大数据·人工智能·深度学习·计算机视觉·语言模型
Elastic 中国社区官方博客8 小时前
使用 Elastic-Agent 或 Beats 将 Journald 中的 syslog 和 auth 日志导入 Elastic Stack
大数据·linux·服务器·elasticsearch·搜索引擎·信息可视化·debian
对许9 小时前
Hadoop的运行模式
大数据·hadoop·分布式