第七单元.xlsx_问卷系统

扫码填写或分享

第七单元.xlsx

spark中cache算子和persist算子的关系

cache算子是persist算子的一个子集

persist算子是cache算子的一个子集

persist算子包含cache算子

cache算子包含persist算子

哪个不是大数据计算引擎？

MapReduce

Spark

Flink

MySQL

spark中的图计算框架是 ( )：

spark core

spark streaming

mlbase

Grophx

高阶函数是指？

在程序中应该首先被定义的函数。

将函数作为参数，并返回结果为函数的函数。

函数参数为函数或返回结果为函数的函数。

执行时间长的函数。

spark是哪个大学研发出来的

阿里学院

美国伯克利分校

麻省理工大学

复旦大学

spark于以下哪年年诞生于AMPLab

2009

2010

2018

2012

Apache Spark是一种快速、通用、可扩展的()分析引擎

大数据

电商

J2EE

查询

spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理()数据集

单机

集中式

分布式

NOSQL

以下哪个不属于spark的生态圈

sparksql

spark Streaming

MLIB

HIVE

spark程序不能运行方式

local

standalone

yarn

hdfs

Redis是一个（）存储系统

spark core

spark streaming

mlbase

Grophx

spark中的rdd不存储数据，存储的是

Key-value

Master-slave

Memcached

Push/pop

action算子在spark程序运行的过程中有什么作用

懒执行

立即执行

一致性

冗余性

下列选项中是spark安装包自带的测试案例的是

worker组件在spark的任务调度中具有以下哪个作用

计算数据

存储数据

运送数据

心跳检测

spark中的rdd是一个（）数据集

弹性分布式

弹性计算

运送数据

心跳

在scala中定义方法使用关键字

def

main

object

class

spark架构中cache算子具有以下哪个特性

延迟执行

立即执行

等待执行

陈列执行

不属于Scala7种数值类型的是

Char

String

Integer

LongLong

列表的常用操作有哪些

交集（intersect）

并集（union）

获取列表的首个元素（take）和剩余部分(drop)

拉链（zip）和拉开（unzip）

下面对于spark的特点描述正确的是

ache Spark是一种快速、通用、可扩展的大数据分析引擎

spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理分布式数据集

spark强调一站式解决方案，集批处理、实时流处理、交互式查询与图计算于一体，避免了多种运算场景下需要部署不同集群带来的资源浪费

spark可以将数据分析过程的中间输出保存在内存中，从而不需要从外部持久化存储中反复读写数据，相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景

Spark有如下特性

良好的容错性：在分布式数据集计算时通过checkpoint来实现容错，当某个运算环节失败时，不需要从头开始重新计算

开发便捷性：spark通过scala，java，python api及交互式shell提供丰富的使用方式

不适合细粒度更新操作：Spark的运算是面向集合的，不适用于需要异步细粒度更新状态的应用，例如web服务的DAO层或web爬虫等

以上答案都不符合其特性

Spark对比Hadoop来说有如下优势？

速度更快

更适合迭代运算

编程模型更加灵活，不局限于MAP与REDUCE操作

中间结果可以存在内存，不需要磁盘的IO 读写

val content: String = "hello world" 描述正确的是？

var val第一个是对scala中对变量的定义标志，其中var表示可变，val表示不可以变量

content为变量的名字

:String 表示是变量的类型，如果没有写，将来会自动推断

"hello world"为变量的初始化

对于数组以下描述正确的是？

val arr = Array(4,3,5,1,2) val b = arr.sorted sorted将会把数组按升序进行重新排序

val arr = Array(4,3,5,1,2) val b = arr.sorted sorted将会把数组按降序进行重新排序

val arr = Array(4,3,5,1,2) val c = arr.sortWith(_>_) sortWith(_>_)表示降序排序

val arr = Array(4,3,5,1,2) val c = arr.sortWith(_>_) sortWith(_<_)表示升序排序

spark中cache算子和persist算子的关系

cache算子是persist算子的一个子集

persist算子是cache算子的一个子集

persist算子包含cache算子

cache算子包含persist算子

spark中以下哪些特性是rdd的特性

rdd是由一系列的partition组成的

原子性

算子作用在partition上

每个rdd都会提供一批最优的计算位置

spark架构中cache算子应具有以下哪些特性？

延迟加载

不能立即接action算子

立即执行

需要action算子触发

spark比mapreduce快的原因不仅仅是因为内存

正确

错误

spark中无法实时计算

正确

错误

flume主要作用是收集日志数据

正确

错误

Spark的运算是面向集合的，不适用于需要异步细粒度更新状态的应用

正确

错误

spark可以将数据分析过程的中间输出保存在内存中，从而不需要从外部持久化存储中反复读写数据

正确

错误

spark使用Scala语言开发，代码表现力强，封装了大量高级运算API，极大提高数据处理的开发效率

正确

错误

spark中的application代表一个应用程序

正确

错误

Spark框架和Kafka框架使用Scala语言编写

正确

错误

spark切分完的partition的个数必须与block一致

正确

错误

spark在基于客户端模式运行时，driver会在一台机器指定启动

正确

错误

隐私政策

龙艺秀提供技术支持

答题卡

已答0未答38