【新版】阿里云ACP大数据工程师模拟试题（含答案解析）

1 、题干：关于ODPS跨项目资源共享的说法正确的是?

A：Package是一种跨项目空间共享数据及资源的机制，主要用于解决跨项目空间的用户授权问题

B：添加资源时支持的对象类型不包括Project类型，即不能将project添加到packet里

C：如果某个package还有人在使用，则该package的owner无法删除此package

D：添加到Package中的不仅仅是对象本身，还包括相应的操作权限，如不显示指定权限，则默认为读写权限

答案：A;B;C

解析：目前支持的对象类型不包括Project类型，也就是不允许通过Package在其他Project中创建对象。添加到Package中的不仅仅是对象本身，还包括相应的操作权限。当没有通过[withprivileges privileges]来指定操作权限时，默认为只读权限，即Read/DescribelSelect。

"对象及其权限"被看作一个整体，添加后不可被更新。若有需要，只能删除和重新添加。

2 、数据工场DataWorks (原DatalDE)中，任务task1是在00:00至23:59之间按小时调度的周期性调度任务，任务配置为每小时执行次，每次执行生成前一个小时的数据。任务task2是按小时调度的周期性调度任务，任务配置为每6小时执行一次，每次执行都是处理task1生成的前6个小时的数据。为了保证task2每次运行前task1的前6个小时数据已经生成成功，task1和task2需要如何配置?

A：task1跨周期依赖选择自依赖，task2依赖属性的上游任务配置为task1

B：task2依赖属性的上游任务配置为task1

C：task2依赖属性的上游任务配置为ask1, task2跨周期依赖选择等待自定义任务的上一周期结束，自定义任务是task1

D：task2跨周期依赖选择等待自定义任务的上一周期结束，自定义任务是task1

答案：D

解析：A、自依赖：本次节点运⾏依赖上⼀周期该节点业务数据的产出情况。task2依赖属性的上游任务配置为task1，也将会每小时执行1次；

B、Task1没有说明，task2将同A结果一致

C、设置跨周期依赖后就不需要再配置正常的依赖属性

D、补充C选项，设置跨周期依赖后可以正常生成依赖关系，不需要再配置task2的上游为task1.

3 、DataIDE中的数据同步支持离线批量数据同步模式，离线数据同步是指数据周期性、成批量地从源端系统传输到目标端系统，关于数据同步周期说法正确的是（）。(正确答案4个)

A：支持天级调度

B：支持周级调度

C：支持实时调度

D：支持小时级调度

E：支持月级调度

答案：A;B;D;E

解析：调度是支持月、周、日、时、分，但是选项中支持实时调度不正确

4 、组织是DataIDE的特有概念，组织的基本对象为项目空间，以下说法正确的有（）。

A：一个账号可以加入同一个组织的多个项目空间

B：一个组织可以创建多个项目空间

C：一个账号只能加入一个组织

D：一个项目空间可以属于多个组织

答案：A;B;C

解析：组织可以理解为公司，项目空间可以假设为部门 D、一个组织可以包含多个项目空间，但是一个项目空间不能属于多个组织。

5 、Stream Studio的应用场景包括?

A：生产时采集数据需要实时化处理以帮助决策层快速应对市场变化，寻求业务商机

B：实时采集、加工流式数据、实时监控和展现业务、客户各类报表指标

C：实时分析和处理各类IOT数据，实时了解各类系统健康程度，及时处理业务异常

D：系统实时数据需要实时化监控和预警，在事件产生时即刻发现，最大化避免业务风险

答案：A;B;C;D

解析：Stream Studio的实时计算应用场景：业务部门：实时风控、实时推荐、搜索引擎的实时索引构建等。数据部门：实时数仓、实时报表、实时大屏等。运维部门：实时监控、实时异常检测和预警、全链路Debug等。

6 、在数据工场DataWorks (原Data IDE)中的数据同步任务的配置选项中，可以设置源表和目标表的字段对应关系。将云数据库RDS (MySQL)的表同步到大数据计算服务(MaxCompute,原ODPS)中时，RDS表为user_info(id,name,addr), MaxCompute表为user_info(id,name,addr)，在该数据同步任务的字段映射关系配置下说法错误的是（）。

A：按照源表、目标表两侧的字段顺序一一对应来逐行同步，而不是按照字段名称逐行导入

B：按照字段名称匹配来导入，无需关注两侧的字段映射关系

C：若该任务只需要将name和addr同步至MaxCompute,那么在字段配置中删除两侧的id字段

D：数据同步任务是严格按照字段映射关系来逬行导入

答案：C

解析：A、D选项正确，匹配规则只看映射关系，不看名字；

B选项正确，因为该题明确了表结构，系统一定会匹配正确的映射关系，所以无需关注；

C选项表述错误，数据同步过程中，源表必须要有id，目标表无所谓，如果目标表不事先设置id，同步时也会自动创建id字段。

7 、在数据工场DataWorks (原DatalDE) 中，下列哪些情况一定会导致数据同步任务执行出错?

A：执行账号没有源端表的读权限

B：同步任务执行前，目标表被删除

C：目标表删除重建后少了一些字段

D：源表新增了字段

答案：A;B;C

解析：本题考察的知识点是：数据集成的实际应用执行账号无读取权限，会报错无权限。目标表缺少，报错table not exsts。缺失字段除非重新做同步任务，否则报错字段不能解析。原端新增不影响同步，类似于select部分字段一样。

8、在数据工场DataWorks (原DataIDE )中的数据同步任务的配置选项中，可以设置源表和目标表的字段对应关系。将大数据计算服务( MaxCompute，原ODPS )的表同步到分析型数据库中时，以下关于字段映射的说法中正确的有（）。

A：源表和目标表需要同步的字段的名称必须一致

B：源表和目标表需要同步的字段需按照位置关系一一对应即可

C：字段配置项中，源表和目标表需要同步的字段数必须一致

D：数据同步任务是按照源表和目标表字段位置来匹配导入的

答案：B;D

解析：源表和目标表需要同步的字段的名称必须一致：字段名可以不一致，只要有明确的映射关系就可以。

字段配置项中，源表和目标表霉要同步的字段数必须一致：源表和目标表的字段个数不一定非要一致，映射主要靠位置对应。

9 、数据工场DataWorks (原Data IDE)中的数据同步任务Task1,将云数据库RDS (MySQL) Table1数据增量同步至大数据计算服务(MaxCompute, 原ODPS)的表Table2的对应分区中，必须在Task1中配置（）。

A：容错记录条数

B：源表切分主键

C：数据过滤条件和分区值(使用变量方式)

D：作业速率上限

答案：C

解析：根据题目增量数据同步应设置数据过滤条件，以时间字段为过滤条件实现增量同步。容错记录条数是排除脏数据用的；设置切分键是提升同步速度、作业上限速度，为了设置同步速率，减低源端压力。

1 0 、数据工场DataWorks中，task1和task2都是按天调度的周期性调度任务，task1生成分区表table1,task2生成分区表table2，每天task2取table1最新分区的数据进行统计，而task1有部分数据来源是table2前一天分区的数据。task1和task2的依赖关系需要如何配置?

A：只需要task1依赖属性的上游任务配置为task2

B：task1和task2都不需要配置依赖属性

C：task1跨周期依赖选择"等待自定义任务的上一周期结束，才能继续运行"，自定义任务填写task2，task2依赖属性的上游任务配置为task1

D：只需要task2依赖属性的上游任务配置为task1

答案：C

解析：调度周期配置按题意应该是task2依赖task1，task1依赖task2的前一天数据，要保证依赖关系正常执行，需要task1等待前一周期结束，然后task2才能正常执行。

A、如果只设置task1依赖属性的上游任务配置为task2，那么task2无法取table1最新分区数据进行统计；

B、不依赖是无法完成题目中复杂的逻辑运算的；

D、只设置task2依赖属性的上游任务配置为task1，那么无法实现task1部分数据取字table2的前一天分区。

文章篇幅有限，更多阿里云ACP题库试题司~me↓↓↓

【新版】阿里云ACP大数据工程师模拟试题（含答案解析）

**1 ****、**题干：关于ODPS跨项目资源共享的说法正确的是?

**3 ****、**DataIDE中的数据同步支持离线批量数据同步模式，离线数据同步是指数据周期性、成批量地从源端系统传输到目标端系统，关于数据同步周期说法正确的是（ ）。(正确答案4个)

**4 ****、**组织是DataIDE的特有概念，组织的基本对象为项目空间，以下说法正确的有（ ）。

**5 ****、**Stream Studio的应用场景包括?

**7 ****、**在数据工场DataWorks (原DatalDE) 中，下列哪些情况一定会导致数据同步任务执行出错?

**9 ****、**数据工场DataWorks (原Data IDE)中的数据同步任务Task1,将云数据库RDS (MySQL) Table1数据增量同步至大数据计算服务(MaxCompute, 原ODPS)的表Table2的对应分区中，必须在Task1中配置（ ）。

1 、题干：关于ODPS跨项目资源共享的说法正确的是?

3 、DataIDE中的数据同步支持离线批量数据同步模式，离线数据同步是指数据周期性、成批量地从源端系统传输到目标端系统，关于数据同步周期说法正确的是（）。(正确答案4个)

4 、组织是DataIDE的特有概念，组织的基本对象为项目空间，以下说法正确的有（）。

5 、Stream Studio的应用场景包括?

7 、在数据工场DataWorks (原DatalDE) 中，下列哪些情况一定会导致数据同步任务执行出错?

9 、数据工场DataWorks (原Data IDE)中的数据同步任务Task1,将云数据库RDS (MySQL) Table1数据增量同步至大数据计算服务(MaxCompute, 原ODPS)的表Table2的对应分区中，必须在Task1中配置（）。