900字范文 > 机器学习期末考试单选题

机器学习期末考试单选题

时间：2021-04-01 20:35:57

相关推荐

机器学习期末考试单选题

1.在NumPy中创建一个元素均为0的数组可以使用（ A）函数。

A.zeros( ) B.arange( ) C.linspace( ) D.logspace( )

2.通常（ A）误差作为泛化误差的近似。

A.测试 B.训练 C.经验 D.以上都可以

试题解析：解析：一般情况下，我们可以通过实验测试来对学习器的泛化误差进行评估并进而做出选择。因此，通常使用一个“测试集”来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。

3.梯度为（ B）的点，就是损失函数的最小值点，一般认为此时模型达到了收敛。

A.-1 B.0 C.1 D.无穷大

4.创建一个3*3的数组，下列代码中错误的是（ C ）。

A.np.arange(0,9).reshape(3,3)

B.np.eye(3)

C.np.random.random([3,3,3])

D.np.mat("1,2,3;4,5,6;7,8,9")

5.关于数据集的标准化，正确的描述是：（ A ）。

A.数据集标准化有助于加快模型的收敛速度

B.标准化一定是归一化，即数据集的取值分布在[0,1]区间上

C.数据集的标准化一定是让标准差变为1

D.所有的模型建模之前，必须进行数据集标准化

6.Python安装第三方库的命令是（ C ）。

A.pip –h

B.pyinstaller <拟安装库名>

C.pip install <拟安装库名>

D.pip download <拟安装库名>

7.如果发现模型在验证集上的准确性整体高于训练集，在验证集上的损失整体低于训练集，则最可能的情况是：（ B ）。

A.验证集的数据样本与训练集相比，数量过少和过于简单

B.模型没有采用正则化方法

C.以上都对

试题解析：模型过拟合

8.DL是下面哪个术语的简称（ D ）。

A.人工智能 B.机器学习 C.神经网络 D.深度学习

9.验证集和测试集，应该：（ A ）。

A.样本来自同一分布 B.样本来自不同分布

C.样本之间有一一对应关系 D.拥有相同数量的样本

10.一般使用以下哪种方法求解线性回归问题：（ A ）。

A.最小二乘法 B.最大似然估计 C.对数变换 D.A和B

11.以下哪个函数可以实现画布的创建？（ C ）。

A.subplots( ) B.add_subplot( ) C.figure( ) D.subplot2grid( )

12.Numpy中统计数组元素个数的方法是（ C ）。

A.ndim B.shape C.size D.itemsize

13.决策树中的分类结果是最末端的节点，这些节点称为（ D ）。

A.根节点 B.父节点 C.子节点 D.叶节点

14.以下哪种不是Python第三方库的安装方法（ C ）。

A.pip工具安装 B.自定义安装 C.网页安装 D.文件安装

15.关于学习率，以下描述错误的是：（ B ）。

A.如果学习率足够小，随机梯度下降算法将更容易获得全局最优解。

B.降低学习率有可能导致模型训练时间增加。

C.以上都不对。

试题解析：学习率决定着权重和偏差的更新幅度。

将输出误差反向传播给网络参数，以此来拟合样本的输出。本质上是最优化的一个过程，逐步趋向于最优解。但是每一次更新参数利用多少误差，就需要通过一个参数来控制，这个参数就是学习率（Learning rate）,也称为步长。学习率(Learning rate)作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。

16.将数据集划分成训练集S和测试集T的常见方法有（ D ）。

A.留出法 B.交叉验证法 C.自助法 D.以上均正确

试题解析：解析：当只有一个数据集D，既要用于训练，又要用于测试时，往往会对数据集D进行适当处理，从中产生出训练集S和测试集T，常用的方法有：留出法、交叉验证法、自助法。

17.ML是下面哪个术语的简称（ B ）。

A.人工智能 B.机器学习 C.神经网络 D.深度学习

18.当数据特征不明显、数据量少的时候，采用下面哪个模型（C）。

A.线性回归 B.逻辑回归 C.支持向量机 D.神经网络

19.机器学习的流程包括:分析案例、数据获取、（C）和模型验证这四个过程。

A.数据清洗B.数据分析C.模型训练D.模型搭建

20.一般而言，某个人的学习时间长短与测验成绩之间的关系是：（ D）。

A.不能确定B.负相关C.不相关D.正相关

21.Matplotlib中的哪个包提供了一批操作和绘图函数？（ A ）。

A.pyplot B.Bar C.rcparams D.pprint

22.Numpy.random模块中用于对一个序列进行随机排序的函数是（ B ）。

A.uniform B.shuffle C.permutation D.normal

23.以下哪种不是Python第三方库的方法（ B ）。

A.pip install B.pip install -U pip C.pip update D.pip uninstall

24.以下哪个软件包用于矩阵和向量的科学计算？（ A ）。

A.Numpy B.Pandas C.Matplotlib D.Seaborn

25.在逻辑斯蒂（对数几率）回归（logistic regression）中将输出y视为样本x属于正例的概率。给定训练数据集，通常采用（ B ）来估计参数w和b，最大化样本属于其真实类标记的概率的对数，即最大化对数似然。

A.最小二乘法 B.极大似然法 C.交叉验证法 D.留出法

试题解析：解析：A、用于线性回归中的参数求解 C、一种模型评估方法 D、一种模型评估方法

26.使下面哪个函数可以将线性回归线转为逻辑回归线?（ A ）。

A.Sigmoid B.高斯核函数 C.P(A) D.H(x)

27.支持向量机的简称是（ D ）。

A.AI B.ML C.ANN D.SVM

28.线性回归方程y=-2x+7揭示了割草机的剩余油量（升）与工作时间（小时）的关系，以下关于斜率描述正确的是：（ C ）。

A.割草机可以被预测到的油量是2升

B.割草机每工作1小时大约需要消耗7升油

C.割草机每工作1小时大约需要消耗2升油

D.割草机工作1小时后剩余油量是2升

29.如果学习率过大，以下描述正确的是：（ A ）。

A.模型需要更长的训练时间才能收敛到最优值

B.模型需要消耗更多的计算资源

C.模型难以泛化

试题解析：模型难以收敛到最优值

30.下面不属于人工神经网络的是（ C ）。

A.卷积神经网络 B.循环神经网络 C.网络森林 D.深度神经网络

31.Numpy提供了两种基本对象，一种是ndarray，另一种是（ B）。

A.array B.func C.matrix D.Series

32.以下（ C）函数可以在绘制图表时，设置x轴的名称。

A.xlim() B.ylim() C.xlabel() D.xticks()

33.用于度量样本点之间距离的距离度量函数有（ D ）。

A.连续属性距离度量函数

B.离散属性距离度量函数

C.混合属性距离度量函数

D.以上都是

34.使用Pandas库设置索引使用哪种方法（ D ）。

A.merge()方法

B.concat()方法

C.to_datetime()方法

D.set_index()方法从英文意思都能得出答案

35.对于机器学习表述下列正确的是（ B ）。

A.机器学习和人工智能是独立的两种技术

B.机器学习是人工智能的核心技术和重要分支

C.机器学习的目标是让机器设备像人类一样学习书本知识

D.机器学习是指一系列程序逻辑控制算法

36.下列选项中不能创建Numpy数组的选项是（ B ）。

A.a = numpy.array([1,2,3])

B.a = numpy.array([1,[1,2,3],3]) 无法创建，元素数量不一致

C.a = numpy.array([[1,2,3],[4,5,6]])

D.a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])

37.如果你有10000000 个样本，将如何划分数据集？（ A ）。

A.98% train ，1% dev ，1% test 训练集、验证集、测试集

B.34% train，33% dev，33% test

C.60% train，20% dev，20% test

D.50% train ，20% dev ，30% test

38.%matplotlib inline指令的作用是：（ A ）。

A.将Matplotlib命令绘制的图形嵌入到当前文档中显示

B.Matplotlib命令可以用于当前文档绘图

C.Matplotlib命令只能在文档内部运行

D.必须包含该指令，Matplotlib命令才能被执行

39.假设我们获得了具有n条记录的数据集，其中输入变量为x，输出变量为y。使用线性回归方法对该数据集进行建模，将数据集随机分为训练集和测试集。如果我们逐渐增加训练集的大小，随着训练集大小的增加，则平均训练误差会发生什么变化？（ C）。

A.减少

B.不确定

C.以上都不对

试题解析：增加

40.机器学习的简称是（ B ）。

A.AI B.ML C.DL D.NN

41.对没有标签的数据进行分类的问题属于机器学习中哪一类问题（）。无label即无监督学习，聚类降维概率模型

A.回归

B.分类

C.聚类

D.强化

把输入数据看成一个行（m）为特征，列（N）为样本的矩阵。则从数据角度，可以将无监督学习分为三类。

将数据按列划分，即将相似的样本聚到同类，即对数据进行聚类，代表算法k-means，层次聚类。

将数据按行划分，把高维空间的向量转化到低维空间的向量，即对数据进行降维，代表算法主成分分析（PCA）。

同时考虑数据的纵向和横向结构，假设数据由某个概率模型生成，通过数据学习该概率模型，代表算法PageRank算法。

42.有程序段： a=np.random.randn(4,3) b=np.random.randn(3,2) c=a*b 根据数组a、b、c的定义，推断c的维度为：（ D ）。

A.c.shape = (3, 3)

B.c.shape = (4,2)

C.c.shape = (4, 3)

D.c的计算会出错，因为a和b的维度不匹配

试题解析：4行3列矩阵无法和3行2列矩阵相乘

试卷分析：单选题考察十分基础，主要涉及基本概念和基础运用的考查，知识点方面涵盖Python基础、Python第三方库Numpy、Matplotlib等的简单应用、机器学习基础模型、机器学习基本流程、数据集划分、机器学习基础知识、英文术语、平均训练误差等，试题中出现的难点主要有对学习率的理解。总的来说，题目简单易懂，难度低。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。