13本七月在线内部电子书在文末,自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

题1、过采样的一些方法

过采样是指在不平衡数据集中增加少数类样本的数量,常用方法包括:

  • 随机过采样:随机复制少数类样本,直至达到平衡。

  • SMOTE(Synthetic Minority Over-sampling Technique):通过在少数类样本之间插值生成合成样本。

  • ADASYN(Adaptive Synthetic Sampling):在样本稀疏区域生成更多合成样本,关注困难分类的样本。

  • 基于聚类的过采样:使用聚类算法找到少数类样本的聚类中心,然后生成新的样本。

2、图神经网络的过平滑现象

过平滑现象指的是在多层图神经网络中,节点的特征会随着层数的增加而趋于一致,导致节点之间的信息丢失。表现为节点的特征分布变得更加相似,使得模型的表达能力下降。通常通过引入跳跃连接或限制层数来缓解过平滑问题。

3、三元组的损失的样本的选取原则

在三元组损失中,样本的选取原则主要包括:

  • Anchor(锚点):选取一个正样本,作为基准。

  • Positive(正样本):与锚点属于同一类别的样本,应该与锚点的距离更近。

  • Negative(负样本):与锚点属于不同类别的样本,应该与锚点的距离更远。通常选择困难负样本,即那些在特征空间中与锚点相近的负样本,以增加训练的难度。

4、BN的作用是什么

批量归一化(Batch Normalization, BN)的作用主要包括:

  • 加速训练:通过归一化层输入,提高训练速度。

  • 稳定性:减少内部协变量偏移,使得训练过程更稳定。

  • 正则化效果:对每个小批量的样本进行归一化,有助于减少过拟合。

题5、RNN和LSTM和Transformer的区别是什么

RNN(循环神经网络):用于处理序列数据,存在梯度消失或爆炸的问题,难以捕捉长期依赖关系。

LSTM(长短时记忆网络):通过引入门控机制解决RNN的长期依赖问题,能更好地记忆和遗忘信息。

Transformer:基于自注意力机制,无需序列顺序处理,能够并行计算,处理长序列时效率更高,同时捕捉全局上下文信息。

问题6、Relu和sigmoid的函数区别?

ReLU(Rectified Linear Unit):输出为输入值的正部分,形式为 ,具有稀疏激活的优点,能缓解梯度消失问题,但可能导致"死神经元"现象。

Sigmoid:输出值在0到1之间,形式为 ,适用于二分类问题,但容易造成梯度消失。

题7、深度学习的过拟合有什么解决方法

解决过拟合的常用方法包括:

  • 正则化:使用L1或L2正则化减少模型复杂度。

  • Dropout:随机丢弃一部分神经元以减少相互依赖。

  • 数据增强:增加训练数据的多样性,减少模型对特定样本的依赖。

  • 早停法:监控验证集的损失,在其不再下降时停止训练。

  • 交叉验证:使用交叉验证评估模型的泛化能力。

问题8、介绍一下逻辑回归

逻辑回归是一种用于二分类问题的统计模型,通过逻辑函数(如Sigmoid)将线性组合的输入映射到0和1之间的概率值。其主要步骤包括:

  • 线性组合特征:

  • 应用Sigmoid函数:

  • 通过最大似然估计优化参数 w 和 b。逻辑回归易于实现,计算效率高,但不适合处理复杂的非线性关系。

题9、介绍一下决策树和XGBoost

决策树:一种树形结构的模型,通过对特征进行分裂(如基于Gini指数或信息增益)逐层构建,直到达到预设的停止条件。决策树易于理解和解释,但容易过拟合。

XGBoost(Extreme Gradient Boosting):一种基于梯度提升树的高效实现,结合了决策树的优点,具有更好的性能和准确性。其特点包括:

  • 正则化:通过L1和L2正则化减少过拟合。

  • 高效性:支持并行计算,加快训练速度。

  • 灵活性:可以处理多种类型的目标函数,适用于回归和分类问题。

  • ↓以下13本书电子版免费领,直接送↓

    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片

    扫码回复【999】免费领13本电子书

    或找七月在线其他老师领取