扫码填写或分享
0%
第十六单元
*
1
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
该题配额已满,无法继续作答,请联系发布者
A.
关联规则发现
B.
聚类
C.
分类
D.
自然语言处理
*
2
当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
该题配额已满,无法继续作答,请联系发布者
A.
分类
B.
聚类
C.
关联分析
D.
神经网络
*
3
一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:
该题配额已满,无法继续作答,请联系发布者
A.
一年级
B.
二年级
C.
三年级
D.
四年级
*
4
以下关于spark streaming说法正确的是
该题配额已满,无法继续作答,请联系发布者
A.
spark streaming分布式微批架构
B.
spark streaming实时存储架构
C.
spark streaming是普通存储架构
D.
spark streaming分布式实时计算架构
*
5
以下哪些算法是分类算法:
该题配额已满,无法继续作答,请联系发布者
A.
DBSCAN
B.
C4.5
C.
K-Mean
D.
PCA
*
6
人面哪个不是 RDD 的特点
该题配额已满,无法继续作答,请联系发布者
A.
可分区
B.
可序列化
C.
可修改
D.
可持久化
*
7
以下哪些算法是基于规则的分类器:
该题配额已满,无法继续作答,请联系发布者
A.
C4.5
B.
KNN
C.
Naive Bayes
D.
ANN
*
8
spark默认的存储级别
该题配额已满,无法继续作答,请联系发布者
A.
MEMORY ONLY
B.
MEMORY ONLY SER
C.
MEMORY AND DISK
D.
MEMORY AND DISK SER
*
9
下面哪个端口不是spark自带服务的端口
该题配额已满,无法继续作答,请联系发布者
A.
8080
B.
8090
C.
18080
D.
4040
*
10
spark中资源管理的主节点
该题配额已满,无法继续作答,请联系发布者
A.
master
B.
worker
C.
application
D.
driver
*
11
AdaBoost的损失函数采用了
该题配额已满,无法继续作答,请联系发布者
A.
最小估计值
B.
最大估计值
C.
对数损失
D.
指数损失
*
12
构造决策树时,期望是
该题配额已满,无法继续作答,请联系发布者
A.
随着深度的增加,节点的熵迅速降低
B.
随着深度的增加,节点的熵迅速升高
C.
随着深度的增加,节点的熵不变
D.
以上都不对
*
13
能够比较不同模型性能的方法是
该题配额已满,无法继续作答,请联系发布者
A.
GridSearchCV
B.
cross_val_score
C.
随机森林
D.
Adaboost
*
14
CART建立决策树时,依据()来筛选节点
该题配额已满,无法继续作答,请联系发布者
A.
信息增益
B.
信息熵
C.
信息增益率
D.
Gini系数
*
15
下面哪一种描述不是KNN算法的优点
该题配额已满,无法继续作答,请联系发布者
A.
简单,易于理解,易于实现,无需估计参数,无需训练
B.
代码实现简单
C.
适合对稀有事件进行分类
D.
特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好
*
16
用C4.5生成决策树,是根据()来进行节点的选择
该题配额已满,无法继续作答,请联系发布者
A.
信息增益
B.
信息熵
C.
信息增益率
D.
Gini系数
*
17
可以对()进行特征值分解
该题配额已满,无法继续作答,请联系发布者
A.
方阵型矩阵
B.
m*n阶矩阵(m不等于n)
C.
任意类型矩阵
D.
以上都不对
*
18
下列算法无法实现特征选择的是
该题配额已满,无法继续作答,请联系发布者
A.
特征子集选择
B.
lasso
C.
PCA
D.
SVM
*
19
随机森林中每棵树的特征集
该题配额已满,无法继续作答,请联系发布者
A.
随机地从M个特征中选取m个特征子集
B.
里面的特征都和其他树使用的特征不重合
C.
都是整个特征集
D.
以上都不对
*
20
ID3算法创建决策树时,节点选择是根据
该题配额已满,无法继续作答,请联系发布者
A.
信息增益
B.
信息熵
C.
信息增益率
D.
Gini系数
*
21
Spark Streaming结果也能保存在很多地方比如如下那些选项?
该题配额已满,无法继续作答,请联系发布者
A.
HDFS
B.
数据库
C.
Dashboards
D.
zookeeper
*
22
下列哪些数据特性都是对聚类分析具有很强影响的:
该题配额已满,无法继续作答,请联系发布者
A.
高维性
B.
规模
C.
稀疏性
D.
噪声和离群点
*
23
Spark Streaming支持的数据输入源包括如下那那些选项?
该题配额已满,无法继续作答,请联系发布者
A.
Kafka
B.
Flume
C.
Twitter
D.
口 ZeroMQ和简单的TCP套接字
*
24
以下属于聚类算法的是:
该题配额已满,无法继续作答,请联系发布者
A.
K-Means
B.
DBSCAN
C.
Apriori
D.
KNN
*
25
下面属于数据集的一般特性的有:
该题配额已满,无法继续作答,请联系发布者
A.
连续性
B.
维度
C.
稀疏性
D.
分辨率
*
26
下列哪种方法可以用来减小过拟合?
该题配额已满,无法继续作答,请联系发布者
A.
更多的训练数据
B.
L1 正则化
C.
L2 正则化
D.
减小模型的复杂度
*
27
随机森林的缺点有
该题配额已满,无法继续作答,请联系发布者
A.
当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大
B.
相比决策树更难以解释其决策过程
C.
无法用于回归
D.
需要多次剪枝
*
28
常用的非线性激活函数有:
该题配额已满,无法继续作答,请联系发布者
A.
sigmoid
B.
relu
C.
tanh
D.
cos
*
29
下列方法中,可以用于特征降维的方法包括?(多选)
该题配额已满,无法继续作答,请联系发布者
A.
主成分分析 PCA
B.
矩阵奇异值分解 SVD
C.
SVM
D.
LR
*
30
spark中的distinct算子是由以下哪两种算子实现的 分值5分
该题配额已满,无法继续作答,请联系发布者
A.
map算子
B.
groupbykey算子
C.
reducebykey算子
D.
orderby算子
*
31
监督学习的标准方法是将一组示例数据的分成训练数据集和测试数据集。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
32
在机器学习和统计应用中,降维是指在计算时减少随机变量数目的处理过程,并且可以分为特征选择和特征提取。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
33
支持向量机是一种无监督学习算法。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
34
Spark Streaming数据输入后可以用Spark的高度抽象原语如: map、reduce、join、window等进行运算
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
35
决策树方法通常用于关联规则挖掘。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
36
SVD分解只能对方阵进行分解。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
37
"监督式学习中存在过拟合,而对于非监督式学习来说,没有过拟合"。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
38
logistic 曲线是一种常见的 S 型函数。
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
39
Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
*
40
梯度下降方法,只包含批量梯度下降和小批量梯度下降
该题配额已满,无法继续作答,请联系发布者
A.
正确
B.
错误
答题卡
已答0
未答40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40