13本七月在线内部电子书在文末,自取~
公众号福利
回复【100题】领取《名企AI面试100题》PDF
回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料
问题1、fasttext原理,层次softmax,树构造
FastText是Facebook AI Research(FAIR)提出的一种文本表示方法。其核心思想是将词看作字符n-grams的集合,因此能够捕捉词内的形态信息。FastText能够有效处理未登录词(即在训练集中未出现的词)。
层次Softmax:在传统Softmax中,输出层的计算复杂度随着类别数的增加而线性增长。层次Softmax通过构建二叉树,将输出类别组织成层次结构,只需在树中进行路径遍历,大大降低计算复杂度。具体步骤包括:
将所有类别组织成二叉树,每个叶子节点代表一个类别。
使用哈夫曼编码等方法构建树,以降低高频类别的深度。
预测类别时,通过遍历树的路径来计算Softmax值,降低计算量。
树构造:通常使用哈夫曼树构造层次Softmax。在训练过程中,频率高的词被放置在树的上部,频率低的词则在下部,这样可以提高常用词的预测效率。
问题2、mapreduce 原理和阶段
MapReduce是一种编程模型,用于处理和生成大规模数据集。其工作流程主要分为两个阶段:
Map阶段:
输入数据被分割成多个片段,分配给不同的Map任务。
每个Map任务读取输入数据,并对数据进行处理,生成键值对(key-value pairs)。
Shuffle和Reduce阶段:
Shuffle:将Map任务生成的键值对进行排序和分组,相同的键会被分到同一个Reduce任务。
Reduce阶段:Reduce任务接收相同键的所有值,进行合并、聚合等处理,输出最终结果。
问题3、minhash原理,LSH实现
MinHash是一种用于估计集合相似度的技术,特别适用于大规模数据集。其基本原理如下:MinHash通过对集合进行哈希处理,生成多个哈希值,并选取最小哈希值作为该集合的特征。多个哈希函数可以生成一组特征,从而形成一个签名。
LSH(局部敏感哈希):基于MinHash实现的技术,通过将相似的对象映射到同一桶中来加速相似度查询。步骤包括:
使用MinHash生成对象签名。
将签名分成多个“桶”,在每个桶内查找相似对象。
通过减少比较次数,提升效率。
问题4、sentence-bert原理
Sentence-BERT是一个用于句子相似度计算的模型,基于BERT模型进行扩展。其主要原理如下:
使用BERT提取句子的上下文信息。
通过双塔结构(Siamese Network),对两个输入句子分别进行编码,得到固定长度的向量表示。
利用这些向量进行相似度计算,通常使用余弦相似度等度量方法。
问题5、BERT原理、维度、词表大小,模型结构、位置编码类型
BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,其核心原理如下:
原理:使用Transformer架构的编码器部分,基于大规模文本进行双向训练,可以捕捉上下文信息。
维度:BERT-base的隐层维度为768,BERT-large为1024。
词表大小:通常为30,000个词。
模型结构:包括多层Transformer编码器,BERT-base有12层,BERT-large有24层。
位置编码类型:使用正弦和余弦函数生成的位置编码,以表示词语在句子中的位置。
问题6、precesion、recall、AUC指标和应用场景
Precision(精确率):真正例占所有预测为正例的比例。高精确率表示模型在预测为正例时较为准确。
Recall(召回率):真正例占所有实际正例的比例。高召回率表示模型能够捕捉到大多数正例。
AUC(曲线下面积):ROC曲线下的面积,AUC值越接近1表示模型性能越好。AUC常用于二分类模型的性能评估,尤其在类不平衡时。应用场景:
Precision和Recall常用于信息检索、医疗诊断等需要权衡正确性和完整性的场景。
AUC适用于分类任务,特别是在样本不平衡或需要评估分类器的整体性能时。
问题7、LR、随机森林、GBDT的区别
逻辑回归(Logistic Regression, LR):
类型:线性模型,用于二分类任务。
原理:通过逻辑函数(sigmoid)将线性组合的输入转换为概率值。模型输出的是某一类别的概率,通常通过阈值(如0.5)进行分类。
优点:简单易解释、计算效率高,适合线性可分的数据。
缺点:对异常值敏感,无法捕捉复杂的非线性关系。
随机森林(Random Forest, RF):
类型:集成学习方法,基于决策树的集合。
原理:通过构建多棵决策树(每棵树使用不同的样本和特征子集)来进行分类或回归。最终的输出通过投票(分类)或平均(回归)获得。
优点:能够处理高维特征、抗过拟合能力强、对缺失值不敏感。
缺点:模型复杂,不易解释,训练和预测时间较长。
梯度提升树(Gradient Boosting Decision Trees, GBDT):
类型:集成学习方法,基于决策树的Boosting模型。
原理:逐步构建决策树,每棵树都是在前一棵树的基础上,通过最小化损失函数来优化模型。每棵新树关注上一次树的错误(残差)。
优点:高效、准确性高,能处理非线性问题,并且通常能提供较好的性能。
缺点:训练时间较长,易于过拟合,需进行参数调优。
问题8、word2vec原理
Word2Vec是由Google提出的一种将词映射为向量的技术,其核心目标是捕捉词的语义关系。Word2Vec的实现主要有两种模型:Skip-gram和CBOW(Continuous Bag of Words)。
Skip-gram模型:通过当前词预测上下文词。给定一个词,模型试图预测在其周围的上下文词。
输入层:当前词的独热编码。
输出层:预测上下文词的概率分布。
CBOW模型:通过上下文词预测当前词。给定上下文的词,模型试图预测当前词。
输入层:上下文词的独热编码(通常是多个词)。
输出层:预测当前词的概率分布。
训练过程:
Word2Vec使用负采样(Negative Sampling)或层次Softmax来加速训练和减少计算复杂度。
通过最大化预测概率的方式,训练过程中更新词向量,使得在高维空间中,语义相似的词的向量距离较近。
↓以下13本书电子版免费领,直接送↓
扫码回复【999】免费领13本电子书
(或找七月在线其他老师领取)
热门跟贴