24秋：数据采集-期末复习题：选择填空判断

数据采集技术 - 复习题

题型：单项选择题10道，30分，多项选择题5道，20分，判断题10道，20分，填空题5道，20分，程序题2道，10分。

一．单项选择题

1、传统爬虫从一个或若干网页的（ C ）开始获取初始网页上的地址。

A. 初始变量地址 B. 初始输入位置 C. 统一资源定位符URL D. IP地址

2、HTTP请求头中Accept表示（ B ）。

A. 浏览器标识 B. 请求的资源类型 C. 语言类型 D. 编码类型

3、HTTP请求头中User-Agent表示（ A ）。

A. 浏览器标识 B. 请求的资源类型 C. 语言类型 D. 编码类型

4、HTTP请求头中Accept-Encoding表示（ D ）。

A. 浏览器标识 B. 请求的资源类型 C. 语言类型 D. 编码类型

5、在Python的re模块中，（ A bB ）函数实现从字符串的起始位置匹配一个模式。

A. search() B. match() C. find() D. findall()

6、在Python的re模块中，（ B A）函数用于扫描整个字符串，并返回第一个成功的匹配。

A. search() B. match() C. find() D. findall()

7、在Python的re模块中，（ D ）函数用于在整个字符串中搜索所有符合正则表达式的字符串。

A. search() B. match() C. find() D. findall()

8、正则表达式中，（C ）表示匹配前一个元字符1到多次。

A. ？ B. # C. + D. #

9、正则表达式中，（ D ）表示匹配前一个元字符0到多次。

A. ？ B. # C. # D. *

10、正则表达式中，（A ）表示匹配前一个元字符0到1次。

A. ？ B. # C. * D. #

11、（ B ）是一个表示网页头部的标签。

A. <title></title> B. <head></head> C. <body></body> D. <a></a>

12、（ C ）模块是Python自带的网络请求模块。

A. pip B. urllib3 C. urllib D. requests

13、在urllib模块中，（D ）用于实现基本HTTP请求。

A. urllib.timeout B. urllib.error C. urllib.parse D. urllib.request

14、在urllib模块中，（ B ）用于异常处理。

A. urllib.timeout B. urllib.error C. urllib.parse D. urllib.request

15、在urllib.request.Request命令中，（ A ）用来设置请求头部信息。

A. headers B. url C. method D. data

16、在urllib3模块中，PoolManager对象的request()方法的默认请求重试次数为（ B D）。

A. 1 B. 5 C. 4 D. 3

17、（ B ）模块是request模块的扩展功能，用于提供持久化缓存支持。

A. Requests-Info B. Requests-Cache C. Requests-HTML D. Requests-Get

18、（C）方法用于实现将某个字符串中所有匹配正则表达式的部分，替换成其他字符串。

A. map() B. split() C. sub() D. join()

19、B ）方法用于实现根据正则表达式分割字符串。

A. map() B. split() C. sub() D. join()

20、（ D ）是目前最受欢迎的开源关系数据库管理系统。

A. ACCESS B. SQL SERVER C. ORACLE D. MySQL

21、（A ）是一个基于分布式文件存储的数据库。

A. MongoDB B. SQL SERVER C. ORACLE D. MySQL

22、（C ）是计算机中已运行程序的实体。

A. 指令 B. 数据 C. 进程 D. 线程

23、（B）是防止多个线程同时读写某一块内存区域

A. 指令 B. 互斥锁 C. 数据 D. 程

二．多项选择题

1、数据采集对象的线上行为数据包括（）。

A.页面数据 B.交互数据 C.表单数据 D.会话数据 E.应用日志

2、数据采集对象的内容数据包括（）。

A.应用日志 B.电子文档 C.机器数据 D.语音数据 E.社交媒体数据

3、数据采集应用场景（）

A.知识信息储备 B.搜索技术 C.过滤广告 D.精准营销 E.用户信息分析

4、网络爬虫由（）。

A.控制节点 B.爬虫节点 C.资源库 D.数据库 E.爬取日志

5、深层网络爬虫将Web页面按存在方式分为（）。

A.浅层网页 B.表层网页 C.纵向网页 D.深层网页 E.横向网页

6、HTTP的请求方法有（）。

A. get B. delete C. post D. put E. options

7、网络爬虫按照实现的技术和结构可以分为（）。

A.浅层网络爬虫 B.深层网络爬虫 C.通用网络爬虫 D.聚焦网络爬虫 E.增量式网络爬虫

8、Web服务器的工作原理可以概括为（）步骤。

A. 建立连接 B. 分配连接 C. 请求过程 D. 应答过程 E. 关闭连接

9、urllib模块中的urllib.error子模块包含了（）。

A. URLError B. URLExcept C. HTTPExcept D. HTTPError E. HTTPOut

10、urllib3模块的主要特性（）。

A. 线程安全 B. 连接池 C. 客户端SSL/TLS验证 D. 处理HTTP重定向 E. 支持HTTP和SOCKS代理

11、request模块的主要特性（）。

A. 持久Cookie的会话 B. 自动内容解码 C. 文件分块上传 D. 分块请求 E. 自动解压

12、互斥锁为资源引入了（）状态。

A. 封闭 B. 非封闭 C. 锁定 D. 非锁定 E. 自动

13、HTML正文存储为两种格式（）。

A. JSON B. TXT C. CSV D. DOC E. EXE

三．判断题

1、网络爬虫是一种按照一定规则自动爬取互联网信息的程序或脚本。（ A ）

2、通用网络爬虫又称为主题网络爬虫，爬取对象从一些种子扩充到整个web。（ B ）

3、聚焦网络爬虫又称为全网爬虫，是指选择性地爬取相关页面的爬虫。（ B ）

4、增量式网络爬虫是指对已下载的网页采取增量式更新。（ A ）

5、Scrapy是一个为了爬取网站数据、提取结构化数据而编写的应用框架。（ A ）

6、Scrapy是一套用Java编写的异步爬虫框架。（ B ）

7、Scrapy是一套比较成熟的Python爬虫框架。（A ）

8、正则表达式是一种可以用于模式匹配和替换的强大工具。（A ）

9、在正则表达式中，行定位符是用来描述字符串的边界。（ A ）

10、PyCharm是有JetBrains公司开发的Python集成开发环境。（ A ）

11、HTTP是利用TCP在Web服务器之间传输信息的协议。（ A）B

解答： HTTP主要用于客户端（如Web浏览器）与服务器之间的通信，而不是服务器与服务器之间（尽管服务器之间确实可以通过HTTP通信，但这并不是HTTP的主要用途）。服务器之间的通信通常使用其他协议，如FTP（文件传输协议）、SMTP（简单邮件传输协议）

12、在CSS中，ID选择器是通过属性来选择标签。（ A ）B

解答： ID选择器是通过元素的id属性来选择特定的HTML元素。每个元素的id属性应该是唯一的，因此ID选择器能够精确地选择到单个元素。

13、Cookie是服务器向客户端返回响应数据时所留下的标记。（ B ）A

解答： Cookie确实是由服务器在HTTP响应中发送给客户端的一种小型数据块，并保存在客户端的计算机上。每次客户端向服务器发送请求时，都会自动带上这些Cookie。这样，服务器就可以通过这些Cookie来识别客户端或存储一些客户端的状态信息。

14、urllib模块中提供了url子模块，用于解析URL，可以实现URL的拆分或组合。（ × ）

15、在urllib3模块中，PoolManager对象是一个连接池管理对象。（A ）

16、在urllib3模块中，PoolManager对象只能向一个服务器发送请求。（B ）

17、使用Requests-Cache模块不会减少网络资源避免重复请求的次数。（B ）

18、使用Requests-Cache模块可以相应的避免一些反爬机制。（ A）

19、Requests-HTML模块包含request模块中的所有功能。（B ）A

解答： 基于 requests 库构建了一个更高层次的抽象，用于处理 HTML 和相关的任务。

20、Requests-HTML模块增加了对JavaScript的支持、数据提取以及模拟真实浏览器功能。（ A ）

21、XPath是XML路径语言，是一门可以在XML文件中查找信息的语言。（A ）

22、XPath使用路径表达式在XML或HTML中选取节点。（ A ）

23、lxml模块的底层是通过python语言编写的，解析效率非常优秀。（ B ）

24、lxml模块的etree子模块可以直接解析HTML文件。（ A ）

25、lxml模块的etree子模块不能解析字符串类型的HTML文件。（B ）

四．填空题

1、任何完整的数据平台一般都包括++++++数据++ ++采集++ 、++++++数据存储++ ++转换++++++ 、++++++数据++ ++处理_____++ 、++加载_++++可视化++ ++__++ 等几个过程。

2、利用urllib.request模块向百度发出一个get网络请求的命令是 ++urlib.request.get++++urlopen++ ++(++ ++"https://++ ++www.++ ++baidu.com++ ++")++ 。

3、在urllib3 模块中，向一个url发送get请求的命令是

++get()++ ++http = urllib3.PoolManager()++ ++++ 、

++openurl++ ++res = http.request(++ ++'++ ++GET++ ++'++ ++, url)++ ++____++ 。

4、在urllib3模块中，向一个url发送get请求,重试次数为5次的命令是++_urllib3.openurl(++++""++++)__++++___http = urllib3.PoolManager()++

、++res = http.request(++++'++ ++GET++ ++'++ ++,url, retries = 5)++ 。

5、Ajax是++异步++++J++ ++ava++ ++S++ ++cript__++ 和++XML 文本处理_++的组合。

6、++进++++线++ ++程++ 是操作系统能够进行运算调度的最小单位。

7、++互斥锁++防止多个线程同时读写某一块内存区域。

8、在threading模块中Lock类有两个方法：++acquire()++++锁定++ ++__++ 和++release()++++释放++ ++___++ 。

9、++进程 __++是计算机中已运行程序的实体。

10、++程序_______++ 只是指令、数据及其组织形式的描述，++__进程++才是程序的真正运行实例。

11、MongoDB是一个介于++关系数据库++ 和++非关系数据库++之间的产品。

12、++___通用网络++爬虫的爬行范围和数量巨大。

13、HTTP是利用TCP在++WEB客户端++ 和++Web服务器++之间传输信息的协议。

14、++_CSS++是一种标记语言，用于为HTML文档定义布局。

15、_____urllib.request___模块中提供了++openurl urlopen()++方法，用于实现最基本的HTTP请求。

实验目标

五、程序题

参考形考在线记分作业！！！