第十五单元_问卷系统

已知坐标轴中两点A(2,−2)B(−1,2)，求这两点的切比雪夫距离

查看行数和列数用到的方法是

df.head(n)

df.tail(n)

df.shape()

df.info()

不属于数据清洗的方法是

缺失值填充

重复值去除

寻找离群点（奇点）

集成不同的数据库

已知a(3,8,4,2)，b(1,2,2,4)两点的中心坐标为？

(0.5,7,2,1)

(5,3,1,2)

(2,5,3,3)

(0.5,3,0,4)

（）是回归模型的评估指标

recall

precision

已知坐标轴中两点A(2,−2)B(−1,2)，求这两点的曼哈顿距离

k-means中的k是什么（）

样本个数

代价值

聚类个数

以上都不对

机器学习算法分为很多种，哪种可以预测离散因变量？

单变量线性回归

逻辑回归

多变量线性回归

多项式回归

向量 X=[0,4,-3,4,0,0] 的 L1 范数为

L2正则化表示为

各个参数的平方和

是模型参数中非零参数的个数

各个参数绝对值之和

以上都不对

对于列表ls的操作，以下选项中描述错误的是

ls.clear()：删除ls的最后一个元素

ls.copy()：生成一个新列表，复制ls的所有元素

ls.reverse()：列表ls的所有元素反转

ls.append(x)：在ls最后增加一个元素

在样本量非常少，而特征特别多的情况下，以下哪种算法具有特征选择的作用：

SVM

线性回归

神经网络

lasso回归

正则化除了可以简化模型，还能解决（）

防止欠拟合

导致过拟合

防止过拟合

导致欠拟合

以下选项中，不是建立字典的方式是

d = {[1,2]:1, [3,4]:3}

d = {(1,2):1, (3,4):3}

d = {'张三':1, '李四':2}

d = {1:[1,2], 3:[3,4]}

最容易陷入局部最优的是下列哪个无监督学习方法？

k-means聚类

PCA

SVM

ID3

关于决策树，下列说法正确的是：

C4.5算法用信息增益率来选择属性

ID3算法用信息增益率来选择属性

C4.5使用基尼指数来选择划分属性

CART决策树使用信息增益来选择划分属性

用CART算法进行分类时，选择最优特征的最优划分点的准则是：

GINI系数

样本方差

误差平方和

以上都不对

关于 bootstrap ，下列描述正确的是：

从总的 M 个特征中，有放回地抽取 m 个特征（m < M）

从总的 M 个特征中，无放回地抽取 m 个特征（m < M）

从总的 N 个样本中，有放回地抽取 n 个样本（n < N）

从总的 N 个样本中，无放回地抽取 n 个样本（n < N）

PCA特征值分解要求矩阵是()

方阵型矩阵

适用m*n阶矩阵（m不等于n）

适用任意类型矩阵

以上都不对

我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练：

我们随机抽取一些样本, 在这些少量样本之上训练

我们可以试用在线机器学习算法

我们应用PCA算法降维, 减少特征数

以上都可以

有监督学习使用的算法主要包括

逻辑回归

决策树

支持向量机

神经网络

下列哪些算法属于线性回归算法：

多变量线性回归

岭回归

Lasso回归

逻辑回归

常用的距离度量方法包括：

欧几里得空间距离

Manhattan Distance

Chebyshev distance

以上都不对

Python中，以下哪些数据类型可变

列表

字典

元组

字符串

对于缺失值存在多种处理方法，其中包括

删除缺失值

用均值填充

用众数填充

数据标准化

Python 可以作为编程的入门语言，因为他具备以下特质

面向对象

语法简洁

开源

丰富的社区资源

随机森林的构建步骤主要包含以下哪些方面：

从原始数据集中随机有放回采样选出m个样本，共进行n_tree次采样

特征的随机筛选

对于n_tree个训练集，我们分别训练n_tree个决策树模型

对高维数据降维

关于Python 中的位运算符描述正确的是：

与 (&) 返回按位与结果

或 (|) 返回按位或结果

异或 (^) 返回按位异或结果

取反 (~) 返回按位取反结果

下列哪些说法描述的是随机森林的缺点：

当随机森林中的决策树个数很多时，训练时需要的空间和时间会较大

相比决策树更难以解释其决策过程

无法用于回归

需要计算每个弱分类器的权重

除十进制以外，在 Python 中还可以使用:

二进制

八进制

十六进制

四进制

与线性回归不同，逻辑回归主要用于解决分类问题。

正确

错误

Sigmoid函数可以把任何连续的值映射到[0,1]之间。

正确

错误

逻辑回归是一种简单，常见的二分类模型。

正确

错误

机器学习分为监督学习和非监督学习。

正确

错误

逻辑回归虽然带有回归字样，但是逻辑回归属于分类算法。

正确

错误

特征选择是一个重要的数据预处理过程。

正确

错误

降维是一种通过分析出主变量来减少特征变量的过程，其中主变量通常就是重要的特征。

正确

错误

数据规范化在预处理阶段尤为重要，它可以将数值缩放到特定的范围，以在反向传播时获得更好的收敛性。

正确

错误

随机森林在对决策树进行Boosting的基础上，在决策树的训练过程中引入了随机属性选择。

正确

错误

概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。

正确

错误