人工智能】数据挖掘与应用题库(401-500)

1、to_csv方法用于导出csv文件,导出的路径需要提前创建好。

答案:对

2、关于Python读取Excel文件,说法错误的是

答案:

|---------------------------------|---|---|-------------------------------------|
| read_excel方法属于pandas中的方法,可以直接使用 | | | 使用Python导出Excel文件,直接调用to_excel方法即可。 |

3、关于Python读取MySQL数据库,以下说明错误的是

答案:用Python读取MySQL数据库,查询结果默认为数据框形式

4、关于merge函数的描述正确的有

答案:

|---|------------------------------|----------------|-------------------------|
| | merge函数表示根据两组数据中的关键字(key)来合并 | merge函数默认是做内连接 | merge函数可以通过参数how设置连接的类型 |

5、关于分组统计函数groupby描述正确的有

|----------------------------|----------------------|---|----------------------------------------|
| groupby用于分组统计,属于pandas中的方法 | groupby必须与统计函数连用才有意义 | | groupby可以按照多个字段进行分组,并且可以对多个字段应用不同的聚合函数 |

6、apply函数既可以按列应用,也可以按行应用,默认按列应用。

答案:对

7、关于Python中缺失值的描述正确的是

|-------------------------------------|----------------|----------------|---|
| Python中,缺失值的标志是NaN,是not a number的缩写 | 判断缺失值可以用isna方法 | 丢弃缺失值用dropna方法 | |

8、关于Python中缺失值的描述正确的有

|----------------|------------------|---|-----------------------|
| 丢弃缺失值用dropna方法 | 填充缺失值可以用fillna方法 | | fillna方法可以用指定的值来填充缺失值 |

9、异常值又称为离群点,是指数值明显偏离其余观测值的数据。通过箱线图和模型法(如K-means聚类)均可找出异常值。

答案:对

10、关于数据标准化的描述正确的是

|--------------------------------|---------------------------------------|----------------------|---|
| 数据标准化是指数据缩放,即将数据按比例缩放,使其落入特定区间 | 标准分数是数据标准化的一种方法,是指利用数据的均值与标准差对数据进行标准化 | 对数据做log变换,也是标准化的一种方法 | |

11、关于哑变量的描述正确的有

|------------------------------|---------------------------------|-----------------------------------|----------------------------------|
| 哑变量又称虚拟变量,一般指类别变量,例如性别、舱位等级等 | 在数据分析中,类别型的变量一般需要先转换为哑变量,才能引入模型 | pandas中有一个方法get_dummies,可以用于处理哑变量 | sklearn中的OneHotEncoder方法可用于处理哑变量 |

12、关于requests库的描述正确的是

|-------------------------------|----------------------------|------------------------------------------------------------------------|------------------------|
| requests库是一个第三方HTTP库,使用之前需要安装 | 安装命令为:pip install requests | 安装命令:pip install requests --i https://pypi.tuna.tsinghua.edu.cn/simple | requests库通过get方法请求网页对象 |

13、以下HTTP状态码,表示请求成功的是

答案:200

14、urllib和urllib3都是Python内置的库,requests是第三方库,需要安装

答案:对

15、使用XPath之前,需要先安装lxml库,安装命令:pip install lxml

答案:对

16、以下XPath语句,写法有误的是

答案:/bookstore/book[1]/title/text

17、使用XPath获取网页信息时,F12打开调试窗口开到的数据和网页源代码中的数据是一致的。

答案:错

18、关于XPath使用描述正确的有

答案:

|-----------------------|------------------------|---|-----------------|
| 使用XPath之前,需要设置网页的编码格式 | 同样的数据,可以使用不同的XPath语句获得 | | XPath获得的结果为列表格式 |

19、关于正则表达式,描述错误的是

答案:正则表达式中,match与search作用相同,可以替换使用

20、关于正则表达式中常用函数描述正确的是

答案:

|-------------------|----------------------------|----------------|----------------|
| search扫描整个字符串,去匹配 | match从字符串的起始位置匹配,否则返回none。 | findall是全局匹配函数 | 这三个函数都需要导入re模块 |

21、正则表达式中,.可以匹配任意字符。

答案:错

22、关于爬取网页图片的说法正确的是

|-----------------|---------------------|-------------------------|--------------|
| 需要先找到网页源码中的图片地址 | 用Python爬虫获取到所有图片的地址 | 根据图片地址,用Python爬虫获取每一张图片 | 用for循环爬取多张图片 |

23、关于爬取网页图片描述错误的是

答案:保存图片时,Python爬虫会自动为图片命名

24、用Python爬虫获取网页图片,前提是需要在网页源代码中找到图片的地址。

答案:对

25、用正则表达式将字符串s1='360人已购买'中的非数字去除,以下写法正确的是

答案:re.sub('\D','',s1)

26、关于正则表达式模式字符串,描述正确的有

|------------|-------------|-------------------|-----------|
| \d表示十进制数字 | \D表示非十进制数字 | [^\d]表示非十进制数字 | {n}表示恰好n次 |

27、正则表达式,匹配非空白字符用\S或者[^\s]都可以。

答案:对

28、关于Ajax数据描述正确的有

|--------------------------------------------------------|------------------------------|------------------------|------------------------|
| Ajax,Asynchronous JavaScript and XML,中文翻译:异步JavaScript | Ajax数据的特点:从服务器获取信息,网页不需要重新刷新 | Ajax其实有其特殊的请求类型,它叫作xhr | 有些Ajax数据,需要借助于抓包工具进行获取 |

29、在爬取某些网页的时候,有些数据在网页源代码中找不到,这种数据被称为Ajax数据,有些Ajax数据在浏览器中可以找到,有些则需要借助于抓包工具如Fiddler找到。

答案:对

30、关于浏览器模拟描述错误的是

答案:在requests的get方法中,通过参数header可以设置UA

31、关于fake-useragent描述错误的是

答案:

|----------------------------------------|---------------------------------|---|-------------------------------------|
| fake-useragent是一款十分好用的生成UA的工具,使用之前需要安装 | 安装命令:pip install fake-useragent | | fake-useragent中,ua.random方法可以随机生成ua |

32、不使用工具fake-useragent,也可以构建浏览器代理池,网上搜集一些UA,放到一个列表中,构成浏览器代理池。

答案:对

33、关于设置代理IP描述正确的有

答案:

|------------------------|--------------------------|---|--------------|
| 本机真实的IP地址可以通过第三方网站检测出来 | 在get方法中通过proxies参数设置代理IP | | ip的格式为ip+端口号 |

34、关于超时异常描述错误的是

答案:超时异常很少遇见,其实可以不用处理

35、免费的代理IP不靠谱,时效快,付费的代理IP比较靠谱,但是会有使用限制,比如IP限制,或者账户、密码限制。

答案:对

36、关于BeautifulSoup描述正确的有

|------------------------------------------|------------------------------------------------------|----------------------------------------------------|---|
| BeautifulSoup,美味的汤,是一个可以从网页中提取信息的Python库 | BeautifulSoup使用前需要安装,安装命令:pip install beautifulsoup4 | BeautifulSoup使用前需要导入,from bs4 import BeautifulSoup | |

37、BeautifulSoup对象表示的是一个文档的全部内容,通过prettify()方法可以将文档内容按照标准的缩进格式的结构输出。

答案:对

38、利用BeautifulSoup查找class属性的div标签,写法正确的有

|---------------------------------------------------------------------|-------------------------------------------------------------------------|
| house_tag=soup.find_all('div',class_='f-list-item ershoufang-list') | house_tags=soup.find_all('div',{'class':'f-list-item ershoufang-list'}) |

39、BeautifulSoup中的函数find_all表示搜索当前tag的所有tag子节点,返回一个符合给定条件的列表。

答案:对

40、以下哪一个不是BeautifulSoup中的三大常见节点?

答案:根节点

41、关于selenium描述正确的有

|-------------------------------------|------------------------------------------------------|---|---------------------------|
| Selenium 是一个用于Web应用程序测试的工具,自动化测试工具。 | 支持多种主流浏览器,包括IE,Mozilla Firefox,Safari,Google Chrome等 | | 安装命令:pip install selenium |

42、Selenium元素查找,按照class属性名称查找为

答案:find_element_by_class_name

43、Selenium安装好之后,还需要下载浏览器驱动(webdriver),下载后的浏览器驱动放到本机任意目录下即可。

答案:错

44、关于等待页面加载描述正确的有

答案:

|----------------------------------|-----------------------|--------------------------------------------------------------------|
| 等待页面加载是由于浏览器解析页面需要时间,比如执行css、js等 | 等待页面加载有两种方式:隐式等待和显式等待 | 显式等待在browser.get('xxx')前就设置,针对所有元素有效,例如 browser.implicitly_wait(3) |

45、元素交互操作,以下表示模拟输入回车键的是

答案:driver.find_element_by_id('kw').send_keys(Keys.ENTER)

46、Selenium中,find_element_by_xxx

表示查找单个元素,查找多个元素,将element变成elements即可。

答案:对

47、关于post方法描述正确的有

|----------------|------------------|---------------|---|
| post表示向服务器发送信息 | post方法通过参数data设置 | 参数data格式为字典格式 | |

48、关于Session与Cookie描述错误的是

答案:cookie和session都是在服务器端记录信息确定用户身份

49、要想发送cookies到服务器,可以使用 cookies 参数,用法为:

requests.get(url,cookies=r.cookies)

答案:对

50、关于Scrapy描述正确的有

答案:

|---------------|----------------------------------------|---|--------------------------------------------|
| Scrapy是一个爬虫框架 | Scrapy使用前,需要安装,安装命令:pip install Scrapy | | 在命令窗口中,可以通过在命令行窗口中输入"scrapy"确定Scrapy是否安装成功 |

51、关于Scrapy爬虫项目,以下文件需要在settings文件中启用的是

答案:pipelines.py

52、Scrapy爬虫项目,spiders目录下的爬虫文件需要通过命令行生成。

答案:对

53、关于Scrapy爬虫项目,爬虫文件编写描述正确的是

答案:Scrapy中使用正则表达式,不用导入re模块

54、创建Scrapy爬虫项目后,需要通过cd命令进入到该项目目录,再使用genspider命令为该项目创建爬虫文件

答案:对

55、关于Python连接MySQL数据库描述正确的有

答案:

|----------------|----------------------|------------------------------------|
| 需要安装PyMySQL这个库 | 调用pymysql中的connect方法 | connect方法中的参数user、passwd为自己的用户名和密码 |

56、关于Python向MySQL数据库插入记录说法有误的是

答案:插入数据库的表可以不存在,插入过程自动创建

57、Python向MySQL数据库插入数据,用for循环+execute方法也可以插入多条记录。

答案:对

58、关于Scrapy爬虫项目描述有误的是

答案:Request方法可以直接调用,不需要导入任何模块

59、关于Scrapy爬虫项目,将数据导入MySQL数据库说法正确的有

答案:

|-----------------------------------|---------------------------------|------------------------------|---------------------------------|
| 在pipelines文件中编写相关代码,需要导入PyMySQL模块 | 在open_spider方法中,编写连接MySQL数据库的代码 | 在process_item方法中,编写插入数据的相关代码 | 在close_spider方法中,编写关闭数据库连接的相关代码 |

60、Scrapy爬虫项目中,在middlewares文件中设置UA及代理IP,需要在settings文件中取消参数DOWNLOADER_MIDDLEWARES的注释

答案:对

61、关于Python多线程与多进程描述有误的是

答案:Python的多线程受GIL限制,无法实现多线程。

62、关于Python多线程描述正确的有

答案:

|----------------------------------------------|-------------------------------------|------------------------------------|-------------------|
| Python是支持多线程的,主要是通过thread和threading这两个模块来实现的 | threading模块是对thread做了一些封装,可以更加方便的使用 | Python通过start方法启动子线程,通过join方法保持子线程 | 通过多线程会节省多个任务执行的时间 |

63、多线程爬虫可以提高Python爬虫的效率,多进程爬虫无法提高Python爬虫的效率!

答案:错

64、关于pandas描述正确的有

答案:

|---------------------------------|--------------------------------|--------------------------------|----------------------------------------|
| pandas基于Numpy构建,因此安装前需要先安装Numpy | 安装pandas的命令:pip install pandas | pandas有两大数据结构:Series和DataFrame | pandas使用前需要导入,导入方式:import pandas as pd |

65、关于Series和DataFrame描述有误的是

答案:无法创建一个空的DataFrame

66、DataFrame中获取某一列的值有两种写法,一种是通过括号+引号,例如jobInfo['职位名'],另一种是.获取,例如jobInfo.职位名

答案:对

67、关于pandas中的常用方法描述正确的有

答案:

|------------------|-------------------|-------------------|
| 通过loc方法可以获取某一行的值 | 通过drop方法可以丢弃某一列的值 | 通过unique方法可以获取唯一值 |

68、关于pandas中透视表函数pivot_table描述有误的是

答案:参数aggfunc用于指定统计函数,不能指定多个

69、pandas中的函数value_counts可以统计频率,默认为降序排列,通过参数ascending=True可以指定按升序排列。

答案:对

70、调用read_csv读取csv文件时,可以通过参数index_col指定index。

答案:对

71、关于数据集合并函数merge和concat描述正确的有

|---------------------------|-------------------------|----------------------------------------|
| merge:根据两组数据中的关键字(key)来合并 | concat:轴向连接,不管列名,直接加到一起 | merge和concat都是pandas中的函数,调用时需要导入pandas |

72、关于分组统计函数groupby与apply描述有误的是

答案:apply函数不能跟groupby结合使用

73、ETL是下面哪几个单词的缩写?

答案:Extract-Transform-Load

74、ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。

答案:对

75、一般ETL工具只能处理来自关系数据库的数据,不能处理文件数据。

答案:错

76、ETL做数据抽取时,要考虑的主要因素不包括:

答案:抽取人员

77、ETL在做数据抽取时应该尽量选择源数据系统使用的()时段。

答案:低频时段

78、数据清洗的目的就是选择出有缺陷的数据,然后再将它们正确化和规范化,从而达到数据分析或数据挖掘需要的数据质量标准。

答案:对

79、ETL进行数据处理的时候,认为不同数据源中的对性别的描述有的用"男女"有的用字母"M、F",这种情况属于:

答案:数据错误

80、数据清洗主要清洗"脏"数据,其他数据缺陷不需要处理。

答案:错

81、国家数据质量标准中对下面哪一项没有要求?

答案:数据可移植性

82、数据采集与预处理中,数据库数据、文本文件,表格文件、网页文件属于异构数据。

答案:对

83、ETL中数据转换主要进行数据的整合和集成、数据粒度的转换,以及一些商务规则的计算。

答案:对

84、Kettle是一款免费开源的、可视化的、功能强大的ETL工具。

答案:对

85、现在用的Kettle实际上是指PDI的开源版。

答案:对

86、Datastage是IBM公司的开发一款非常专业的ETL处理工具,适合大规模的ETL应用。

答案:对

87、PowerCenter是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。

答案:对

88、Kettle是纯Java编写的ETL工具,需要在JDK环境下运行。

答案:对

89、在Kettle中要连接mysql数据库和Oracle数据库,只要配置其种任意一种数据库驱动就可以了。

答案:错

90、Spoon是Kettle用于编辑作业和转换的图形界面接口。

答案:对

91、Pentaho Data Integration(PDI)分为商业版与开源版 。在中国,一般人仍习惯把Pentaho Data Integration的开源版称为Kettle。

答案:对

92、Kettle中,转换由step和hop构成。

答案:对

93、关于Kettle中的作业,下列说法正确的是:

答案:转换中的步骤是并发执行的

94、关于kettle中的作业和转换的关系,下列说法错误的是:

答案:一个作业包含一个或者多个作业项,这些作业项以某种顺序来执行

95、下面哪项工作不属于ETL的工作范畴?

答案:数据报表分析

96、Kettle安装后不能正常启动有可能是以下哪种原因?

答案:没有安装JDK或JDK环境变量没有配置好

97、Kettle中不能正确访问数据库可能是哪种原因?

|-----------|--------------|----------------|--------|
| 没有配置数据库驱动 | 数据库服务器主机IP错误 | 访问数据库的用户名和密码错误 | 以上都有可能 |

98、如何判断JDK是否正确安装和配置?

答案:在program files下面有java文件夹存在说明安装配置成功

99、启动kettle图形化操作界面需要运行下面哪个文件?

答案:spoon.bat

100、下面哪一项不是kettle的组成模块?

答案:Table(桌子)

相关推荐
Mintopia21 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 天前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 天前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia1 天前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区1 天前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两1 天前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪1 天前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232551 天前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
王鑫星1 天前
SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码
人工智能