第十六单元_问卷系统

某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？

关联规则发现

聚类

分类

自然语言处理

当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？

分类

聚类

关联分析

神经网络

一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是：

一年级

二年级

三年级

四年级

以下关于spark streaming说法正确的是

spark streaming分布式微批架构

spark streaming实时存储架构

spark streaming是普通存储架构

spark streaming分布式实时计算架构

以下哪些算法是分类算法：

DBSCAN

C4.5

K-Mean

PCA

人面哪个不是 RDD 的特点

可分区

可序列化

可修改

可持久化

以下哪些算法是基于规则的分类器：

C4.5

KNN

Naive Bayes

ANN

spark默认的存储级别

MEMORY ONLY

MEMORY ONLY SER

MEMORY AND DISK

MEMORY AND DISK SER

下面哪个端口不是spark自带服务的端口

8080

8090

18080

4040

spark中资源管理的主节点

master

worker

application

driver

AdaBoost的损失函数采用了

最小估计值

最大估计值

对数损失

指数损失

构造决策树时，期望是

随着深度的增加，节点的熵迅速降低

随着深度的增加，节点的熵迅速升高

随着深度的增加，节点的熵不变

以上都不对

能够比较不同模型性能的方法是

GridSearchCV

cross_val_score

随机森林

Adaboost

CART建立决策树时，依据（）来筛选节点

信息增益

信息熵

信息增益率

Gini系数

下面哪一种描述不是KNN算法的优点

简单，易于理解，易于实现，无需估计参数，无需训练

代码实现简单

适合对稀有事件进行分类

特别适合于多分类问题(multi-modal,对象具有多个类别标签)， kNN比SVM的表现要好

用C4.5生成决策树，是根据（）来进行节点的选择

信息增益

信息熵

信息增益率

Gini系数

可以对（）进行特征值分解

方阵型矩阵

m*n阶矩阵（m不等于n）

任意类型矩阵

以上都不对

下列算法无法实现特征选择的是

特征子集选择

lasso

PCA

SVM

随机森林中每棵树的特征集

随机地从M个特征中选取m个特征子集

里面的特征都和其他树使用的特征不重合

都是整个特征集

以上都不对

ID3算法创建决策树时，节点选择是根据

信息增益

信息熵

信息增益率

Gini系数

Spark Streaming结果也能保存在很多地方比如如下那些选项?

HDFS

数据库

Dashboards

zookeeper

下列哪些数据特性都是对聚类分析具有很强影响的：

高维性

规模

稀疏性

噪声和离群点

Spark Streaming支持的数据输入源包括如下那那些选项?

Kafka

Flume

Twitter

口 ZeroMQ和简单的TCP套接字

以下属于聚类算法的是:

K-Means

DBSCAN

Apriori

KNN

下面属于数据集的一般特性的有：

连续性

维度

稀疏性

分辨率

下列哪种方法可以用来减小过拟合？

更多的训练数据

L1 正则化

L2 正则化

减小模型的复杂度

随机森林的缺点有

当随机森林中的决策树个数很多时，训练时需要的空间和时间会较大

相比决策树更难以解释其决策过程

无法用于回归

需要多次剪枝

常用的非线性激活函数有：

sigmoid

relu

tanh

cos

下列方法中，可以用于特征降维的方法包括？（多选）

主成分分析 PCA

矩阵奇异值分解 SVD

SVM

spark中的distinct算子是由以下哪两种算子实现的分值5分

map算子

groupbykey算子

reducebykey算子

orderby算子

监督学习的标准方法是将一组示例数据的分成训练数据集和测试数据集。

正确

错误

在机器学习和统计应用中，降维是指在计算时减少随机变量数目的处理过程，并且可以分为特征选择和特征提取。

正确

错误

支持向量机是一种无监督学习算法。

正确

错误

Spark Streaming数据输入后可以用Spark的高度抽象原语如: map、reduce、join、window等进行运算

正确

错误

决策树方法通常用于关联规则挖掘。

正确

错误

SVD分解只能对方阵进行分解。

正确

错误

"监督式学习中存在过拟合，而对于非监督式学习来说，没有过拟合"。

正确

错误

logistic 曲线是一种常见的 S 型函数。

正确

错误

Discretized Stream是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流

正确

错误

梯度下降方法，只包含批量梯度下降和小批量梯度下降

正确

错误