扫码填写或分享
0%
第十单元
*
1
(离线计算)Apache Spark是一种快速、通用、可扩展的()分析引擎

*
2
hive和hadoop之间的关系正确的是

*
3
hive中查看所有表命令正确的是

*
4
通过hive命令创建表的时候,partitioned by的含义是下列哪个

*
5
通过hive命令创建表的时候,row format delimited fields terminated by的含义是下列哪个

*
6
hive 的元数据存储在 derby 和 MySQL 中有那些区别

*
7
(离线计算)Spark 通过什么创建调度节点和计算节点

*
8
在建表语句中,指定hive的分割符号的命令是

*
9
spark框架中,整合机器学习库,并对外提供接口的框架是下列哪一个()

*
10
spark可以编写sql脚本的框架是下列哪一个()

*
11
spark中的图计算框架是下列哪一个 ( ):

*
12
spark中的flatmap算子的特性是以下哪个选项

*
13
spark中的rdd不存储数据,存储的是下列哪个

*
14
hadoop中的namenode的作用是下列哪个

*
15
hadoop中datanode的在作用是下列哪个

*
16
yarn中nodemanager的作用是下列哪个

*
17
在hadoop集群中,下面哪个进程负责HDFS数据的存储

*
18
在hadoop集群中,DataNode和NameNode之间的通讯机制是下列哪个

*
19
现在有两个大小为130M和2K的文件,请问在hdfs上需要被切分成多少块?

*
20
在hadoop集群中,NameNode元数据是寸放在哪里的?

*
21
以下属于cache算子特性的是

*
22
在HADOOP集群中,关于Client端上传文件的时候下列哪项正确

*
23
spark中cache算子和persist算子的关系

*
24
spark中的persist算子的源码中具有哪些参数

*
25
spark中以下哪些特性是属于rdd的特性

*
26
以下关于rdd的特性说法正确的是

*
27
partition的哪些属性不是在spark进行数据切分的时候决定的

*
28
以下选项补属于rdd特性的是

*
29
以下选项哪些是hive表存储结构?

*
30
下列spark算子中不能将数据持久化到硬盘上的算子是哪些

*
31
Hudi它就是帮助我们存储数据的

*
32
dataFrame和RDD相同,都是分布式数据容器

*
33
java既是面向对象的语言,同时也是面向过程的语言

*
34
37.在scala中for(i <- 0 until 10){println(i)}会输出11个数值

*
35
hive 创建表的时候如果没有特别声明,默认创建的是内部表

*
36
Hadoop的Block Size 可以修改

*
37
hive的内部表和外部表没有区别,因为hive主要是管理数据的一个工具而已

*
38
hive的分桶是为了让文件的大小相同

*
39
hive的内部表删除表仅仅删除hive中元数据不删除数据和指定的路径,外部表如果drop掉表,数据和默认路径都删除了

*
40
(离线计算)一个 Stage 阶段中,最后一个RDD 的分区个数+1就是Task 的个数

答题卡
已答0未答40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40