13本七月在线内部电子书在文末,自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

1、fasttext原理,层次softmax,树构造

FastText是Facebook AI Research(FAIR)提出的一种文本表示方法。其核心思想是将词看作字符n-grams的集合,因此能够捕捉词内的形态信息。FastText能够有效处理未登录词(即在训练集中未出现的词)。

层次Softmax:在传统Softmax中,输出层的计算复杂度随着类别数的增加而线性增长。层次Softmax通过构建二叉树,将输出类别组织成层次结构,只需在树中进行路径遍历,大大降低计算复杂度。具体步骤包括:

  • 将所有类别组织成二叉树,每个叶子节点代表一个类别。

  • 使用哈夫曼编码等方法构建树,以降低高频类别的深度。

  • 预测类别时,通过遍历树的路径来计算Softmax值,降低计算量。

树构造:通常使用哈夫曼树构造层次Softmax。在训练过程中,频率高的词被放置在树的上部,频率低的词则在下部,这样可以提高常用词的预测效率。

2、mapreduce 原理和阶段

MapReduce是一种编程模型,用于处理和生成大规模数据集。其工作流程主要分为两个阶段:

Map阶段:

  1. 输入数据被分割成多个片段,分配给不同的Map任务。

  2. 每个Map任务读取输入数据,并对数据进行处理,生成键值对(key-value pairs)。

Shuffle和Reduce阶段:

  1. Shuffle:将Map任务生成的键值对进行排序和分组,相同的键会被分到同一个Reduce任务。

  2. Reduce阶段:Reduce任务接收相同键的所有值,进行合并、聚合等处理,输出最终结果。

3、minhash原理,LSH实现

MinHash是一种用于估计集合相似度的技术,特别适用于大规模数据集。其基本原理如下:MinHash通过对集合进行哈希处理,生成多个哈希值,并选取最小哈希值作为该集合的特征。多个哈希函数可以生成一组特征,从而形成一个签名。

LSH(局部敏感哈希):基于MinHash实现的技术,通过将相似的对象映射到同一桶中来加速相似度查询。步骤包括:

  • 使用MinHash生成对象签名。

  • 将签名分成多个“桶”,在每个桶内查找相似对象。

  • 通过减少比较次数,提升效率。

4、sentence-bert原理

Sentence-BERT是一个用于句子相似度计算的模型,基于BERT模型进行扩展。其主要原理如下:

  • 使用BERT提取句子的上下文信息。

  • 通过双塔结构(Siamese Network),对两个输入句子分别进行编码,得到固定长度的向量表示。

  • 利用这些向量进行相似度计算,通常使用余弦相似度等度量方法。

题5、BERT原理、维度、词表大小,模型结构、位置编码类型

BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,其核心原理如下:

  • 原理:使用Transformer架构的编码器部分,基于大规模文本进行双向训练,可以捕捉上下文信息。

  • 维度:BERT-base的隐层维度为768,BERT-large为1024。

  • 词表大小:通常为30,000个词。

  • 模型结构:包括多层Transformer编码器,BERT-base有12层,BERT-large有24层。

  • 位置编码类型:使用正弦和余弦函数生成的位置编码,以表示词语在句子中的位置。

题6、precesion、recall、AUC指标和应用场景

Precision(精确率):真正例占所有预测为正例的比例。高精确率表示模型在预测为正例时较为准确。

Recall(召回率):真正例占所有实际正例的比例。高召回率表示模型能够捕捉到大多数正例。

AUC(曲线下面积):ROC曲线下的面积,AUC值越接近1表示模型性能越好。AUC常用于二分类模型的性能评估,尤其在类不平衡时。应用场景:

  • Precision和Recall常用于信息检索、医疗诊断等需要权衡正确性和完整性的场景。

  • AUC适用于分类任务,特别是在样本不平衡或需要评估分类器的整体性能时。

7、LR、随机森林、GBDT的区别

逻辑回归(Logistic Regression, LR):

  • 类型:线性模型,用于二分类任务。

  • 原理:通过逻辑函数(sigmoid)将线性组合的输入转换为概率值。模型输出的是某一类别的概率,通常通过阈值(如0.5)进行分类。

  • 优点:简单易解释、计算效率高,适合线性可分的数据。

  • 缺点:对异常值敏感,无法捕捉复杂的非线性关系。

随机森林(Random Forest, RF):

  • 类型:集成学习方法,基于决策树的集合。

  • 原理:通过构建多棵决策树(每棵树使用不同的样本和特征子集)来进行分类或回归。最终的输出通过投票(分类)或平均(回归)获得。

  • 优点:能够处理高维特征、抗过拟合能力强、对缺失值不敏感。

  • 缺点:模型复杂,不易解释,训练和预测时间较长。

梯度提升树(Gradient Boosting Decision Trees, GBDT):

  • 类型:集成学习方法,基于决策树的Boosting模型。

  • 原理:逐步构建决策树,每棵树都是在前一棵树的基础上,通过最小化损失函数来优化模型。每棵新树关注上一次树的错误(残差)。

  • 优点:高效、准确性高,能处理非线性问题,并且通常能提供较好的性能。

  • 缺点:训练时间较长,易于过拟合,需进行参数调优。

8、word2vec原理

Word2Vec是由Google提出的一种将词映射为向量的技术,其核心目标是捕捉词的语义关系。Word2Vec的实现主要有两种模型:Skip-gram和CBOW(Continuous Bag of Words)。

  • Skip-gram模型:通过当前词预测上下文词。给定一个词,模型试图预测在其周围的上下文词。

    • 输入层:当前词的独热编码。

    • 输出层:预测上下文词的概率分布。

  • CBOW模型:通过上下文词预测当前词。给定上下文的词,模型试图预测当前词。

    • 输入层:上下文词的独热编码(通常是多个词)。

    • 输出层:预测当前词的概率分布。

训练过程:

  • Word2Vec使用负采样(Negative Sampling)或层次Softmax来加速训练和减少计算复杂度。

  • 通过最大化预测概率的方式,训练过程中更新词向量,使得在高维空间中,语义相似的词的向量距离较近。

  • ↓以下13本书电子版免费领,直接送↓

    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片

    扫码回复【999】免费领13本电子书

    或找七月在线其他老师领取