第十九单元_问卷系统

做一个项目的大致步骤,下列选项中正确的是

该题配额已满，无法继续作答，请联系发布者

在MapReduce中，并发所有的组件都一定使用,以下哪个组件不是必须的

1.系统设计阶段2.需求分析阶段3.编码阶段 4.测试阶段

1.测试阶段2.需求分析阶段 3.编码阶段4.系统设计阶段

1.需求分析阶段2.系统设计阶段3.编码阶段4.测试阶段

1.编码阶段2.需求分析阶段 3.系统设计阶段 4.测试阶段

hive1.2的trim (string A)函数的作用是

Partitioner

OutputFormat

Combiner

InputFormat

下列的选项中,关于hive的分桶,说法正确的是

查看重复N次字符串

删除字符串两边的空格，中间的会保留

查看当前系统时间

拼接字符串

以下哪个参数表示获取输入的参数个数，多用于循环?

分桶是为了把数据分配到不同的文件中

创建带桶的表的语法是: partitioned by

分桶后会产生更多的二级目录

分桶越多越好

以下哪个参数表示获取所有参数,按照个数?

如何查找出 /etc/my.conf 文件属于哪个包 (package)

liunx下网络连接有哪些

rpm -g /etc/my.conf

rpm -requires /etc/my.conf

rpm -gf /etc/my.conf

rpm -q I grep /etc/my.conf

在hadoop集群中,HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错.咖可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是

nat模式

千行模式

自己模式

网络模式

在linux系统中,如果执行命令 chmod 746 file.txt，那么执行结束后fle.txt的权限是

一次写入，少次读

多次写入，少次读

多次写入，多次读

一次写入，多次读

不会对基本K-均值算法产生影响的因素是（）

rwxr--rw-

rw-r-r--

rwxr--r--

以下代码的作用是？ import sys sys.path.append('/root/mydir/')

样本输入顺序

模式相似性测度

聚类准则

初始类中心的选取

deque是一种（）数据结构

改变python的启动路径

改变python目前的工作路径

添加一个新的python模块的搜索路径

从/root/mydir中移除所有的文件夹

pandas方法中，将Series/Index中的字符串转换为大写的函数是

Heap

Stack

队列

双端队列

对数据的特征选择一般分为三类，下面哪项不包括：

upper()

lower()

replace()

len()

在pandas应用方法中，以下说法不正确的是

过滤式（filter）

包裹式（wrapper）

嵌入式（embedding）

稀疏编码

在机器学习算法中，聚类技术的依据主要是基于

读取csv文件,获得DataFrame数据结构：data = pd.read_csv('filename.csv',header=None)

DataFrame数据结构保存为csv文件：data.to_csv('filename.csv',header=None,index=False)

split()：用给定的模式拆分每个字符串

replace(a,b)：将值b替换为值a

M(4,2,1),N(4,0,1)，他们之间的欧式距离为

特征的均值

距离度量

似然值

特征的方差

AUC值可以通过sklearn包中的哪个模块实现

结构风险最小化策略可以解决（）问题

metrics

preprocessing

workspace

project

以下与PCA算法相关的是哪些

过拟合

欠拟合

收敛过慢

以上都不对

处理过拟合问题常用的方法有

协方差

协方差矩阵

特征值

特征向量

以下（）可以用来衡量分类算法的优劣

减少特征数量主要方法有：人工的挑选重要的特征，去除不重要的特征。

正则化（regularization）保留所有特征，但是减少参数的值

正则化（regularization）保留所有特征，但是增大参数的值

增大特征数量

.Hadoop生态圈组件HDFS中NameNode进程的作用有哪些?

精确率

召回率

均方误差

R方

以下与奇异值分解相关的是哪些

管理元数据

存放数据块

维护目录树

响应客户请求

关于C4.5算法描述正确的是：

左奇异向量

右奇异向量

奇异值

协方差矩阵

对于随机森林中”随机“理解正确地是：

克服了用用信息增益选择属性时偏向选取值多的属性的不足

在树构造过程中进行了剪枝

使用基尼指数来选择划分属性

能够完成对连续性属性的离散化处理

处理缺失值主要包括以下哪些？

数据的随机性化

待选特征的随机化

结果的随机性

方法的随机性

在工程实践中，我们得到的数据会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为

直接使用含有缺失值的特征

删除含有缺失值的特征

缺失值补全

数据展现

特征编码也属于一种数据预处理方法，主要包括

数据标准化、正则化

特征选择

主成分分析

处理缺失值重复值

梯度下降方法，只包含批量梯度下降和小批量梯度下降

正确

错误

数据标准化

以上都对

Secondary namenode就是namenode出现问题时的备用节点

正确

错误

SVD分解只能对方阵进行分解

正确

错误

PCA属于线性降维方法，常用在特征工程中

正确

错误

在linux环境下,_代表符号链接文件

正确

错误

传统的线性回归模型（一组输入–输出对的线性逼近）通过最小化线性模型预测值与训练样本输出值之间的平方误差和来找到可能的最好的实验数据线性拟合。

正确

错误

数据降维就是在保留重要信息的同时消除那些“无信息量的信息”。

正确

错误

在分类中，线性模型旨在用线条、平面与超平面来分离实例。

正确

错误

对于一件给定的事物，决策树通过连续地提出关于其已知属性的问题来估计它的一个未知属性。

正确

错误

决策树是以层次的方式组织起来的一个问题集，并且用一棵树的图形来表示。

正确

错误