数据清洗与融合期末考试(常见理论题)

题库来源未知,大家有的话,也可以发给我,继续补充,答案不一定全部得分,但有借鉴价值

题库会不断扩充,答案会不断完善。

  1. 近几年的新冠疫情中,大数据发挥了重要的作用,通过大数据进行数据分析后,采取相应措施精准控制疫情传播。请根据自己的理解论述大数据、数据分析和数据挖掘之间的联系。

    注意答,大数据,数据分析,数据挖掘的概念

    大数据是数据挖掘和数据分析的基础,数据分析和数据挖掘的区别和联系

  2. 除 Python 外,你所知道的数据分析和处理的工具有哪些?为何目前非常流行使用 Python进行数据分析?

    工具:Excel、SPSS、SAS、R

    因为python标准库较多,简单易学,开源免费而且python还可以爬取数据

  3. 什么是数据可视化?目前比较流行的数据可视化方法有哪些?请举例说明数据可视化的应用实例。

    把数据以图形化的方式展示出来,就称之为数据的可视化。

    目前流行的数据可视化方法有:时空数据可视化,层次与网络结构可视化,文本和跨媒体数据可视化,多变量数据可视化。时空数据。疫情期间的实时地图,双十一期间的商品交易屏幕

  4. 大数据时代信息资源丰富,人们可以轻松从现实世界采集到大量的数据,为什么不能直接使用获取的数据,还要对其进行预处理呢?

    大数据时代虽然信息资源丰富,但是根据大数据的4V原则中的(数据量大,种类繁多,价值密度低,速度快)数据量大,种类繁多和价值密度低,我们可知我们所获取的数据中有大量的脏数据和异常值,包括我们所用不到的数据。不进行处理的话会影响我们的结果和效率。因此我们需要

  5. 数据分析是一个探索性的过程,而可视化分析又是呈现有效分析结果的一种好方法。那么,数据可视化的方法有哪些,举例说明?

    时空数据可视化(疫情时期的实时监控地图),层次与网络结构可视化(),文本和跨媒体数据可视化(词云分析),多变量数据可视化()。//暂时存疑

  6. 数据清洗是什么?结合所学知识谈谈数据清洗主要应用有哪些?

    数据清洗对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。主要应用于数据挖掘和数据分析

  7. 请解释数据清洗的定义,并列举几种常见的数据质量问题。

    数据清洗对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。异常值,重复值,缺失值,数据格式错误,数据单位错误。

  8. 数据清洗的过程包括哪些步骤?并描述每个步骤的作用。//过程不太明确

    数据收集,获取我们所需的数据集

    数据

  9. 数据重复和缺失值是数据清洗中常见的问题,请说明如何识别和处理这些问题。

    对于缺失值,我们可以先用isnull函数对缺失值进行查看,然后通过dropna对缺失值进行删除也可以用fillna对缺失值进行填充

    对于重复值,我们可以先用duplicated对重复值进行判别,然后通过drop_duplicate对重复进行删除操作,其次我们可以通过drop_duplicate函数中keep参数来调整我们默认保留的时第一个出现的数据还是最后一个出现的数据。

  10. 为什么数据清洗和融合在数据分析过程中如此重要?请举例说明。

    在我们日常的分析中,我们所有的数据难免会有一些脏数据和异常值,数据清洗和融合可以为我们提高数据质量,增加我们的数据分析的效率,使我们数据分析的结果更为准确

  11. 数据异常值检测在数据清洗中扮演什么角色?根据所学知识,请举例说明几种常见的异常值检测技术。//不会

  12. 请举例说明在数据处理阶段fillna()和replace()的区别及用法。

    fillna和replace的区别,fillna主要处理的是缺失值,replace主要是替换指定字符串。

    fillna用法:fillna有四个参数,分别为(value,method),axis,inplace和limit其中value表示用于填充空值的值,method可以定义填充空值方式,value和method两者存一,axis用来设定填充是按行填充,还是按照列来填充,inplace用来设置是否更原DataFrame的值,limit用来限制填充值的个数

    replace用法:replace有三个参数分别为 旧字符串,新字符串和替换个数 其语法方式为replace(旧字符串,新字符串,替换个数)

相关推荐
码界筑梦坊16 小时前
282-基于Python的豆瓣音乐可视化分析推荐系统
开发语言·python·信息可视化·数据分析·flask·vue
zxsd_xyz20 小时前
LabVIEW寄存器教程
信息可视化·信号处理·labview·寄存器
Highcharts.js1 天前
Highcharts v13的创新|如何让使用数据源变得简单
信息可视化·表格·新版本·数据源·highcharts·图表开发·v13
电魂泡哥2 天前
Matplotlib.pyplot 完全入门指南
信息可视化·matplotlib
小为2 天前
开源一个数据可视化风格的头像库 vistars,适合可视化产品
信息可视化
AI玫瑰助手2 天前
Python函数:默认参数的定义与注意事项
开发语言·python·信息可视化
jkyy20143 天前
大模型重构饮食健康服务链路:多维技术赋能膳食管理智能化升级
大数据·人工智能·信息可视化·重构·健康医疗
城数派3 天前
2026年500米分辨率DEM地形数据(全球/全国/分省/分市)
数据库·arcgis·信息可视化·数据分析·excel
河阿里3 天前
Python数据可视化:Matplotlib从入门到精通
python·信息可视化·matplotlib
SAP上海工博云署3 天前
2026年中小企业SAP服务商选型技术解析
大数据·运维·数据库·人工智能·信息可视化·运维开发·信息与通信