一、单项选择题(本大题共 15 小题)

1、根据汤姆·米切尔(Tom Mitchell)对机器学习的定义,一个计算机程序被称为可以学习,是指它能够针对某个任务 T 和某个性能指标 P 从经验 E 中学习,其特点是(  )。

① 程序在 T 上的被 P 所衡量的性能会随着经验 E 的增加而提高

② 程序不需要任何数据即可自动提升性能

③ 程序必须通过人工编写规则来更新知识

④ 程序的性能与经验 E 无关

2、在机器学习的三要素中,作为模型学习的“经验来源”的是(  ),实现“规律”的具体体现的是(  )。

① 模型;数据 ② 学习过程;算法

③ 数据;模型 ④ 算法;数据

3、以下关于监督学习的描述,正确的是(  )。

① 训练数据不包含标签,模型自主发现规律

② 训练数据包含输入特征和对应的期望输出(标签)

③ 监督学习只能用于分类任务,不能用于回归任务

④ 监督学习不需要划分训练集和测试集

4、在回归任务中,因变量的特征是(  );在分类任务中,因变量的特征是(  )。

① 连续的数值;离散的类别标签

② 离散的类别标签;连续的数值

③ 文本字符串;数值

④ 无序的集合;有序序列

5、线性回归模型的基本形式为 y = ax + b,其核心用途是(  )。

① 预测离散类别

② 预测连续数值(如房价、温度)

③ 将数据划分为多个簇

④ 降低数据维度

6、关于 K 近邻(KNN)算法的描述,错误的是(  )。

① KNN 算法通过计算待分类样本与训练样本之间的距离来寻找最近邻

② KNN 算法的预测结果受 K 值选择的影响

③ KNN 算法在预测阶段通常需要计算待预测样本与训练样本之间的距离,计算成本较高

④ KNN 算法的预测结果与距离度量和特征尺度无关

7、在常见分类决策树算法中,选择分类分裂特征时常用的衡量标准不包括(  )。

① 信息增益 ② 基尼指数

③ 均方误差 ④ 信息增益比

8、以下关于无监督学习的说法,正确的是(  )。

① 无监督学习的训练数据包含标签,需要人工标注

② 聚类和降维是无监督学习的典型任务

③ 无监督学习的目标是预测未知样本的类别标签

④ 无监督学习无法处理未标注数据

9、降维(Dimensionality Reduction)的核心用途是(  )。

① 将相似样本归为同一簇

② 减少特征数量,同时尽可能保留数据关键信息,用于可视化和简化计算

③ 预测连续数值

④ 实现二分类

10、K-means 聚类算法中,簇中心更新的方式是(  )。

① 随机选择新的中心点

② 计算簇内所有样本的均值作为新中心

③ 选择簇内距离其他点最近的点作为新中心

④ 保持初始中心不变

11、在模型评估中,用于衡量回归模型预测误差的常用指标是(  )。

① 准确率(Accuracy) ② 精确率(Precision)

③ 均方误差(MSE) ④ F1 分数

12、在二分类问题的混淆矩阵中,真正例(TP)表示(  ),假正例(FP)表示(  )。

① 正类样本被正确预测为正类;负类样本被错误预测为正类

② 负类样本被正确预测为负类;正类样本被错误预测为负类

③ 正类样本被错误预测为负类;负类样本被正确预测为负类

④ 负类样本被错误预测为正类;正类样本被正确预测为正类

13、以下关于过拟合和欠拟合的说法,正确的是(  )。

① 过拟合是指模型在训练集上表现差,在测试集上也差

② 欠拟合是指模型在训练集上表现好,但在测试集上表现差

③ 过拟合通常是由于模型过于复杂,学习了数据中的噪声

④ 增加训练数据一定可以缓解欠拟合

14、当需要分析“用户购买行为特征并将用户自动分群”时,应优先选择(  );当需要预测“明天股票收盘价”时,应优先选择(  )。

① 聚类算法;回归算法

② 分类算法;降维算法

③ 回归算法;聚类算法

④ 分类算法;回归算法

15、精确率(Precision)的计算公式是(  ),召回率(Recall)的计算公式是(  )。

① TP/(TP+FP);TP/(TP+FN)

② TP/(TP+FN);TP/(TP+FP)

③ (TP+TN)/(TP+TN+FP+FN);TP/(TP+FP)

④ TP/(TP+FP);(TP+TN)/(TP+TN+FP+FN)

二、判断题(本大题共 5 小题)

1、监督学习可以分为回归和分类两大类任务,其中回归任务的输出是连续值,分类任务的输出是离散类别。(  )

2、KNN 算法不需要显式的训练过程,属于“懒惰学习”算法。(  )

3、K-means 聚类算法需要预先指定聚类数量 K,且对初始簇中心的选择不敏感。(  )

4、在回归任务中,决定系数 R² 的取值范围一定是 [0,1],越接近 1 通常表示模型拟合效果越好。(  )

5、为了评估模型的泛化能力,通常将数据集划分为训练集和测试集,且测试集应参与模型训练过程。(  )

三、编程填空题(本大题共 5 小题)

1、补全以下代码,使用单变量线性回归预测房价。已知房屋面积(平方米)与价格(万元)的数据,请训练线性回归模型并预测面积为 85 平方米的房价。

2、补全以下代码,使用 KNN 算法对鸢尾花数据集进行分类,并计算准确率。

3、补全以下代码,使用 K-means 算法对生成的二维数据进行聚类,并输出聚类中心。

4、补全以下代码,使用交叉验证评估线性回归模型的性能。

5、补全以下代码,对特征进行标准化后训练线性回归模型,并输出模型的系数。

点赞有美意,赞赏是鼓励