第十单元_问卷系统

（离线计算）Apache Spark是一种快速、通用、可扩展的()分析引擎

大数据

电商

J2EE

查询

hive和hadoop之间的关系正确的是

hive是利用 MapReduce 储存数据,利用 Yarn 查询分析数据

hive是利用 MapReduce 储存数据,利用 HDFS 查询分析数据

Hive 利用 HDFS 存储数据，利用 MapReduce 查询分析数据

hive是利用 HDFS 储存数据,利用 Yarn 查询分析数据

hive中查看所有表命令正确的是

show database

show tables

show table

show dataTable

通过hive命令创建表的时候,partitioned by的含义是下列哪个

指定存储格式

指定分隔符

指定分区字段

指定表名

通过hive命令创建表的时候,row format delimited fields terminated by的含义是下列哪个

指定分隔符

指定存储格式

指定分区字段

指定表名

hive 的元数据存储在 derby 和 MySQL 中有那些区别

没区别

支持网络环境

多会话

数据表名的区别

（离线计算）Spark 通过什么创建调度节点和计算节点

申请资源

执行任务

逻辑计算

代码优化

在建表语句中,指定hive的分割符号的命令是

fields？delimiter？by？"\t"

fields？terminated？by？"\t"

fields？"\t"

fields？？by？"\t"

spark框架中，整合机器学习库，并对外提供接口的框架是下列哪一个()

mlbase

spark streaming

spark core

spark sql

spark可以编写sql脚本的框架是下列哪一个()

spark core

spark streaming

spark sql

mlbase

spark中的图计算框架是下列哪一个 ( )：

spark core

Grophx

mlbase

spark streaming

spark中的flatmap算子的特性是以下哪个选项

输入输出是一对一关系

输入输出是一对多关系

输入输出是多对多关系

输入输出是多对一

spark中的rdd不存储数据，存储的是下列哪个

数据库数据

物理数据

业务逻辑

物理逻辑

hadoop中的namenode的作用是下列哪个

存储数据

删除数据

写入数据

管理集群中的节点

hadoop中datanode的在作用是下列哪个

管理集群中的节点

存储数据

写入数据

删除数据

yarn中nodemanager的作用是下列哪个

管理本机节点的资源

管理集群中整体节点的资源情况

存储数据

读取数据

在hadoop集群中,下面哪个进程负责HDFS数据的存储

Datanode

Jobtracker

NameNode

tasktracker

在hadoop集群中,DataNode和NameNode之间的通讯机制是下列哪个

http请求

webservice

心跳机制

ajax

现在有两个大小为130M和2K的文件，请问在hdfs上需要被切分成多少块？

在hadoop集群中,NameNode元数据是寸放在哪里的？

磁盘

内存

CPU

主板

以下属于cache算子特性的是

延迟执行

需要action算子触发执行

必须用一个变量来接收

可以立即跟一个action算子执行

在HADOOP集群中,关于Client端上传文件的时候下列哪项正确

数据经过NameNode传递给DataNode

Client端将文件以Block为单位，管道方式依次传到DataNode

Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作

当某个DataNode失败，客户端会继续传给其它DataNode

spark中cache算子和persist算子的关系

cache算子是persist算子的一个子集

persist算子是cache算子的一个子集

persist算子包含cache算子

cache算子包含persist算子

spark中的persist算子的源码中具有哪些参数

_useDisk

_useMemory

_useOffHeap

_useDes

spark中以下哪些特性是属于rdd的特性

rdd是由一系列的partition组成的

算子作用在partition上

原子性

每个rdd都会提供一批最优的计算位置

以下关于rdd的特性说法正确的是

rdd是仅仅由一组partition够成的

rdd之间都是独立的，没有依赖

算子作用在partition上

每个rdd都会提供一批最优的计算位置

partition的哪些属性不是在spark进行数据切分的时候决定的

partition大小

partition个数

partiton的所有者

parrtition的一切

以下选项补属于rdd特性的是

冗余性

一致性

rdd之间具有依赖性

每个rdd都会提供一批最优的计算位置

以下选项哪些是hive表存储结构？

内表存储

外表存储

混合存储

内存存储

下列spark算子中不能将数据持久化到硬盘上的算子是哪些

persist

checkpoint

cache

map

Hudi它就是帮助我们存储数据的

正确

错误

dataFrame和RDD相同，都是分布式数据容器

正确

错误

java既是面向对象的语言,同时也是面向过程的语言

正确

错误

37.在scala中for(i <- 0 until 10){println(i)}会输出11个数值

正确

错误

hive 创建表的时候如果没有特别声明,默认创建的是内部表

正确

错误

Hadoop的Block Size 可以修改

正确

错误

hive的内部表和外部表没有区别,因为hive主要是管理数据的一个工具而已

正确

错误

hive的分桶是为了让文件的大小相同

正确

错误

hive的内部表删除表仅仅删除hive中元数据不删除数据和指定的路径，外部表如果drop掉表，数据和默认路径都删除了

正确

错误

（离线计算）一个 Stage 阶段中，最后一个RDD 的分区个数+1就是Task 的个数

正确

错误