【新版】阿里云ACP大数据工程师模拟试题(含答案解析)

**1 ****、**题干:关于ODPS跨项目资源共享的说法正确的是?

A:Package是一种跨项目空间共享数据及资源的机制,主要用于解决跨项目空间的用户授权问题

B:添加资源时支持的对象类型不包括Project类型,即不能将project添加到packet里

C:如果某个package还有人在使用,则该package的owner无法删除此package

D:添加到Package中的不仅仅是对象本身,还包括相应的操作权限,如不显示指定权限,则默认为读写权限

答案:A;B;C

解析:目前支持的对象类型不包括Project类型,也就是不允许通过Package在其他Project中创建对象。添加到Package中的不仅仅是对象本身,还包括相应的操作权限。当没有通过[withprivileges privileges]来指定操作权限时,默认为只读权限,即Read/DescribelSelect。

"对象及其权限"被看作一个整体,添加后不可被更新。若有需要,只能删除和重新添加。

**2 ****、**数据工场DataWorks (原DatalDE)中,任务task1是在00:00至23:59之间按小时调度的周期性调度任务,任务配置为每小时执行次,每次执行生成前一个小时的数据。任务task2是按小时调度的周期性调度任务,任务配置为每6小时执行一次,每次执行都是处理task1生成的前6个小时的数据。为了保证task2每次运行前task1的前6个小时数据已经生成成功,task1和task2需要如何配置?

A:task1跨周期依赖选择自依赖,task2依赖属性的上游任务配置为task1

B:task2依赖属性的上游任务配置为task1

C:task2依赖属性的上游任务配置为ask1, task2跨周期依赖选择等待自定义任务的上一周期结束,自定义任务是task1

D:task2跨周期依赖选择等待自定义任务的上一周期结束,自定义任务是task1

答案:D

解析:A、自依赖:本次节点运⾏依赖上⼀周期该节点业务数据的产出情况。task2依赖属性的上游任务配置为task1,也将会每小时执行1次;

B、Task1没有说明,task2将同A结果一致

C、设置跨周期依赖后就不需要再配置正常的依赖属性

D、补充C选项,设置跨周期依赖后可以正常生成依赖关系,不需要再配置task2的上游为task1.

**3 ****、**DataIDE中的数据同步支持离线批量数据同步模式,离线数据同步是指数据周期性、成批量地从源端系统传输到目标端系统,关于数据同步周期说法正确的是( )。(正确答案4个)

A:支持天级调度

B:支持周级调度

C:支持实时调度

D:支持小时级调度

E:支持月级调度

答案:A;B;D;E

解析:调度是支持月、周、日、时、分 ,但是选项中支持实时调度不正确

**4 ****、**组织是DataIDE的特有概念,组织的基本对象为项目空间,以下说法正确的有( )。

A:一个账号可以加入同一个组织的多个项目空间

B:一个组织可以创建多个项目空间

C:一个账号只能加入一个组织

D:一个项目空间可以属于多个组织

答案:A;B;C

解析:组织可以理解为公司,项目空间可以假设为部门 D、一个组织可以包含多个项目空间,但是一个项目空间不能属于多个组织。

**5 ****、**Stream Studio的应用场景包括?

A:生产时采集数据需要实时化处理以帮助决策层快速应对市场变化,寻求业务商机

B:实时采集、加工流式数据、实时监控和展现业务、客户各类报表指标

C:实时分析和处理各类IOT数据,实时了解各类系统健康程度,及时处理业务异常

D:系统实时数据需要实时化监控和预警,在事件产生时即刻发现,最大化避免业务风险

答案:A;B;C;D

解析:Stream Studio的实时计算应用场景:业务部门:实时风控、实时推荐、搜索引擎的实时索引构建等。数据部门:实时数仓、实时报表、实时大屏等。运维部门:实时监控、实时异常检测和预警、全链路Debug等。

**6 ****、**在数据工场DataWorks (原Data IDE)中的数据同步任务的配置选项中,可以设置源表和目标表的字段对应关系。将云数据库RDS (MySQL)的表同步到大数据计算服务(MaxCompute,原ODPS)中时,RDS表为user_info(id,name,addr), MaxCompute表为user_info(id,name,addr),在该数据同步任务的字段映射关系配置下说法错误的是( )。

A:按照源表、目标表两侧的字段顺序一一对应来逐行同步,而不是按照字段名称逐行导入

B:按照字段名称匹配来导入,无需关注两侧的字段映射关系

C:若该任务只需要将name和addr同步至MaxCompute,那么在字段配置中删除两侧的id字段

D:数据同步任务是严格按照字段映射关系来逬行导入

答案:C

解析:A、D选项正确,匹配规则只看映射关系,不看名字;

B选项正确,因为该题明确了表结构,系统一定会匹配正确的映射关系,所以无需关注;

C选项表述错误,数据同步过程中,源表必须要有id,目标表无所谓,如果目标表不事先设置id,同步时也会自动创建id字段。

**7 ****、**在数据工场DataWorks (原DatalDE) 中,下列哪些情况一定会导致数据同步任务执行出错?

A:执行账号没有源端表的读权限

B:同步任务执行前,目标表被删除

C:目标表删除重建后少了一些字段

D:源表新增了字段

答案:A;B;C

解析:本题考察的知识点是:数据集成的实际应用执行账号无读取权限,会报错无权限。目标表缺少,报错table not exsts。缺失字段除非重新做同步任务,否则报错字段不能解析。原端新增不影响同步,类似于select部分字段一样。

8、在数据工场DataWorks (原DataIDE )中的数据同步任务的配置选项中,可以设置源表和目标表的字段对应关系。将大数据计算服务( MaxCompute,原ODPS )的表同步到分析型数据库中时,以下关于字段映射的说法中正确的有( )。

A:源表和目标表需要同步的字段的名称必须一致

B:源表和目标表需要同步的字段需按照位置关系一一对应即可

C:字段配置项中,源表和目标表需要同步的字段数必须一致

D:数据同步任务是按照源表和目标表字段位置来匹配导入的

答案:B;D

解析:源表和目标表需要同步的字段的名称必须一致:字段名可以不一致,只要有明确的映射关系就可以。

字段配置项中,源表和目标表霉要同步的字段数必须一致:源表和目标表的字段个数不一定非要一致,映射主要靠位置对应。

**9 ****、**数据工场DataWorks (原Data IDE)中的数据同步任务Task1,将云数据库RDS (MySQL) Table1数据增量同步至大数据计算服务(MaxCompute, 原ODPS)的表Table2的对应分区中,必须在Task1中配置( )。

A:容错记录条数

B:源表切分主键

C:数据过滤条件和分区值(使用变量方式)

D:作业速率上限

答案:C

解析:根据题目增量数据同步应设置数据过滤条件,以时间字段为过滤条件实现增量同步。 容错记录条数是排除脏数据用的; 设置切分键是提升同步速度、作业上限速度,为了设置同步速率,减低源端压力。

**1 0 ****、**数据工场DataWorks中,task1和task2都是按天调度的周期性调度任务,task1生成分区表table1,task2生成分区表table2,每天task2取table1最新分区的数据进行统计,而task1有部分数据来源是table2前一天分区的数据。task1和task2的依赖关系需要如何配置?

A:只需要task1依赖属性的上游任务配置为task2

B:task1和task2都不需要配置依赖属性

C:task1跨周期依赖选择"等待自定义任务的上一周期结束,才能继续运行",自定义任务填写task2,task2依赖属性的上游任务配置为task1

D:只需要task2依赖属性的上游任务配置为task1

答案:C

解析:调度周期配置按题意应该是task2依赖task1,task1依赖task2的前一天数据,要保证依赖关系正常执行,需要task1等待前一周期结束,然后task2才能正常执行。

A、如果只设置task1依赖属性的上游任务配置为task2,那么task2无法取table1最新分区数据进行统计;

B、不依赖是无法完成题目中复杂的逻辑运算的;

D、只设置task2依赖属性的上游任务配置为task1,那么无法实现task1部分数据取字table2的前一天分区。

文章篇幅有限,更多阿里云ACP题库试题司~me↓↓↓

相关推荐
阿里云大数据AI技术31 分钟前
【Elasticsearch】使用阿里云 infererence API 及 semantic text 进行向量搜索
大数据·elasticsearch·阿里云·ai搜索
云计算DevOps-韩老师1 小时前
【网络云计算】2024第50周-每日【2024/12/14】小测-理论和实操-写5个Bash Shell脚本的if语句和交换机路由器的知识
linux·运维·服务器·网络·kubernetes·云计算·bash
ZStack开发者社区1 小时前
VMware替代 | 双一流大学采用ZStack ZSphere虚拟化平台加速医学应用算法分析
云计算
zmd-zk1 小时前
spark将数据输出到hive或mysql中
大数据·数据库·hive·分布式·python·mysql·spark
东方佑1 小时前
spark 分布式 原理
大数据·分布式·spark
xiaoping.huang1 小时前
Spark执行计划解析后是如何触发执行的?
大数据·spark·rdd
forestsea2 小时前
【Elasticsearch】高亮搜索:从原理到Web呈现
大数据·前端·elasticsearch
皮卡丘的忧伤3 小时前
大数据面试题--企业面试真题
大数据·面试·职场和发展
Dragon--Z3 小时前
利用 Flink 构建实时数据写入流水线:从 Paimon 到 Iceberg
大数据·flink
阿里云大数据AI技术3 小时前
MaxCompute Bloomfilter index在蚂蚁安全溯源场景大规模点查询的最佳实践
大数据·数据结构·数据分析