第十七单元.xlsx_问卷系统

PCA特征值分解要求矩阵是()

方阵型矩阵

适用m*n阶矩阵（m不等于n）

适用任意类型矩阵

以上都不对

以下关于Pandas描述正确的是：

Pandas只能处理特定类型的数据

Pandas是基于NumPy的一种工具

Pandas主要包含两种种数据结构：Series(一维)和 DataFrame(二维)

Pandas不能处理浮点及非浮点数据类型的缺失值(NaN)

正则化除了可以简化模型，还能解决（）

防止欠拟合

导致过拟合

防止过拟合

导致欠拟合

下列哪个是岭回归的正规方程解析公式

(XTX+λI)-1XTy

(XTX+λI)

(XTX)-1XTy

(XTX)-1XTy+λI

已知坐标轴中两点A(2,−2)B(−1,2)，这两点的曼哈顿距离（L1距离）为：

关于特征x,y之间相关系数的描述正确的是

相关系数大于0，y随x的增大而减小

相关系数大于0，y随x的增大而增大，或者y随x的减小而减小

相关系数大于0，y随x的减小而增大

以上描述均不对

用CART算法进行分类时，选择最优特征的最优划分点的准则是：

GINI系数

样本方差

误差平方和

以上都不对

哪个是有监督学习技术

将邮件标记为垃圾邮件和非垃圾邮件，垃圾邮件过滤器

在网上找一组新闻文章，把这些文章聚类为同一故事

根据客户数据的数据库，自动发现市场细分市场，并将客户分成不同的细分市场

对有相似习惯的用户推荐同类商品

在K-Means算法中，其中的K具体指的是什么（）

样本个数

代价值

聚类个数

迭代次数

以下哪些不能清洗脏数据？

缺失值填充

重复值去除

修正错误数据

降维

关于kmeans具体的算法步骤组合正确的是： 1.随机选择K个中心点 2.把每个数据点分配到离它最近的中心点； 3.重新计算每类中的点到该类中心点距离的平均值； 4.分配每个数据到它最近的中心点； 5.重复步骤3和4，直到所有的观测值不再被分配或是达到最大的迭代次数。

12345

13425

21345

41235

关于K-均值（K-means）聚类算法中的“k"描述正确的是：

类数

迭代次数

求k次均值

以上都不对

K-均值算法中初始的K个质心怎么选

随机选

必须按一定比列

根据欧几里得距离

以上都不对

在Pandas中，导出数据到CSV文件正确的是：

df.to_excel()

df.to_sql()

df.to_csv()

df.to_json()

以下哪个算法对数据有降维的作用

决策树

PCA

线性回归

多项式回归

以下不属于线性回归模型的是

Ridge Regression岭回归

Lasso Regression套索回归

Logistic Regression逻辑回归

Linear Regression线性回归

以下哪个在PCA算法求解步骤中不会出现

求协方差矩阵

求特征值和特征向量

对数据中心化

求梯度

以下哪个模型可以实现猫的分类

逻辑回归

奇异值分解

线性回归

PCA

下列哪个算法需计算信息增益

Cart树

ID3

神经网络

Ridge

L2正则化表示为

各个参数的平方和

是模型参数中非零参数的个数

各个参数绝对值之和

以上都不对

随机森林中的“随机性”主要体现在（）

样本随机

维度随机

参数随机

弱分类器个数随机

主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点：

主成分个数远远少于原有变量的个数

主成分能够反映原有变量的绝大部分信息

主成分之间应该互不相关

主成分具有命名解释性

Adaboost中有两种权重，体现在（）

样本权重

代价函数

梯度下降

弱分类器权重

下列哪些算法属于集成学习：

线性回归

bagging

boosting

stacking

聚类(clustering)，就是根据数据的“相似性”将数据分为多类的过程。估算两个不同样本之间的相似性，通常使用的方法就是计算两个样本之间的“距离”，最常用的就包含以下哪些“距离”：

欧式距离

马氏距离

曼哈顿距离

余弦距离

K-means算法中判断每个点归属哪个质心的距离怎么算

欧几里德距离

余弦相似度

曼哈顿距离

明可夫斯基距离

关于sklearn.cluster.KMeans 参数介绍正确的是：

n_clusters：整形，缺省值=8 【生成的聚类数，即产生的质心（centroids）数

init:初始化质心的选取方式，主要有下面三种参数可选，‘k-means++’、‘random’ or an ndarray，默认是'k-means++'

n_init:随机初始化的次数，kmeans质心迭代的次数

max_iter:最大迭代次数，默认是300

主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点：

主成分个数远远少于原有变量的个数

主成分能够反映原有变量的绝大部分信息

主成分之间应该互不相关

主成分具有命名解释性

下列哪些数据特性都是对聚类分析具有很强影响的：

高维性

规模

稀疏性

噪声和离群点

以下哪些不能用来降维

线性回归

PCA

SVD分解

决策树

关于L1和L2说法正确的是：

L1正则化对应scikit-learn中的套索回归

L2正则化对应scikit-learn中的岭回归

L2正则化对应scikit-learn中的套索回归

L1正则化对应scikit-learn中的岭回归

决策树算法常用来做聚类。

正确

错误

C4.5与CART既可以用于分类，又可以用于回归。

正确

错误

逻辑回归可以用来做垃圾邮件分类。

正确

错误

随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。

正确

错误

聚类（Clustering）是一种无监督学习(unsupervised learning)，简单地说就是把相似的对象归到同一簇中。

正确

错误

K-均值算法中的“K”与KNN算法中的“K"指的是同一种概念。

正确

错误

朴素贝叶斯的思想是这样的：如果一个事物在一些属性条件发生的情况下，事物属于A的概率>属于B的概率，则判定事物属于A。

正确

错误

朴素贝叶斯分类算法中“朴素”的意思是条件概率独立性。

正确

错误

在机器学习和统计应用中，降维是指在计算时减少随机变量数目的处理过程，并且可以分为特征选择和特征提取。

正确

错误