13本七月在线内部电子书在文末,自取~
公众号福利
回复【100题】领取《名企AI面试100题》PDF
回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料
问题1、过采样的一些方法
过采样是指在不平衡数据集中增加少数类样本的数量,常用方法包括:
随机过采样:随机复制少数类样本,直至达到平衡。
SMOTE(Synthetic Minority Over-sampling Technique):通过在少数类样本之间插值生成合成样本。
ADASYN(Adaptive Synthetic Sampling):在样本稀疏区域生成更多合成样本,关注困难分类的样本。
基于聚类的过采样:使用聚类算法找到少数类样本的聚类中心,然后生成新的样本。
问题2、图神经网络的过平滑现象
过平滑现象指的是在多层图神经网络中,节点的特征会随着层数的增加而趋于一致,导致节点之间的信息丢失。表现为节点的特征分布变得更加相似,使得模型的表达能力下降。通常通过引入跳跃连接或限制层数来缓解过平滑问题。
问题3、三元组的损失的样本的选取原则
在三元组损失中,样本的选取原则主要包括:
Anchor(锚点):选取一个正样本,作为基准。
Positive(正样本):与锚点属于同一类别的样本,应该与锚点的距离更近。
Negative(负样本):与锚点属于不同类别的样本,应该与锚点的距离更远。通常选择困难负样本,即那些在特征空间中与锚点相近的负样本,以增加训练的难度。
问题4、BN的作用是什么
批量归一化(Batch Normalization, BN)的作用主要包括:
加速训练:通过归一化层输入,提高训练速度。
稳定性:减少内部协变量偏移,使得训练过程更稳定。
正则化效果:对每个小批量的样本进行归一化,有助于减少过拟合。
问题5、RNN和LSTM和Transformer的区别是什么
RNN(循环神经网络):用于处理序列数据,存在梯度消失或爆炸的问题,难以捕捉长期依赖关系。
LSTM(长短时记忆网络):通过引入门控机制解决RNN的长期依赖问题,能更好地记忆和遗忘信息。
Transformer:基于自注意力机制,无需序列顺序处理,能够并行计算,处理长序列时效率更高,同时捕捉全局上下文信息。
问题6、Relu和sigmoid的函数区别?
ReLU(Rectified Linear Unit):输出为输入值的正部分,形式为 ,具有稀疏激活的优点,能缓解梯度消失问题,但可能导致"死神经元"现象。
Sigmoid:输出值在0到1之间,形式为 ,适用于二分类问题,但容易造成梯度消失。
问题7、深度学习的过拟合有什么解决方法
解决过拟合的常用方法包括:
正则化:使用L1或L2正则化减少模型复杂度。
Dropout:随机丢弃一部分神经元以减少相互依赖。
数据增强:增加训练数据的多样性,减少模型对特定样本的依赖。
早停法:监控验证集的损失,在其不再下降时停止训练。
交叉验证:使用交叉验证评估模型的泛化能力。
问题8、介绍一下逻辑回归
逻辑回归是一种用于二分类问题的统计模型,通过逻辑函数(如Sigmoid)将线性组合的输入映射到0和1之间的概率值。其主要步骤包括:
线性组合特征:
应用Sigmoid函数:
通过最大似然估计优化参数 w 和 b。逻辑回归易于实现,计算效率高,但不适合处理复杂的非线性关系。
问题9、介绍一下决策树和XGBoost
决策树:一种树形结构的模型,通过对特征进行分裂(如基于Gini指数或信息增益)逐层构建,直到达到预设的停止条件。决策树易于理解和解释,但容易过拟合。
XGBoost(Extreme Gradient Boosting):一种基于梯度提升树的高效实现,结合了决策树的优点,具有更好的性能和准确性。其特点包括:
正则化:通过L1和L2正则化减少过拟合。
高效性:支持并行计算,加快训练速度。
灵活性:可以处理多种类型的目标函数,适用于回归和分类问题。
↓以下13本书电子版免费领,直接送↓
扫码回复【999】免费领13本电子书
(或找七月在线其他老师领取)
热门跟贴