快手数据挖掘一面面试题8道|含解析|上下文|原理|向量|哈希|快手(软体)|数据挖掘|面试题

13本七月在线内部电子书在文末，自取~

公众号福利

回复【100题】领取《名企AI面试100题》PDF

回复【干货资料】领取NLP、CV、ML、大模型等方向干货资料

问题1、fasttext原理，层次softmax，树构造

FastText是Facebook AI Research（FAIR）提出的一种文本表示方法。其核心思想是将词看作字符n-grams的集合，因此能够捕捉词内的形态信息。FastText能够有效处理未登录词（即在训练集中未出现的词）。

层次Softmax：在传统Softmax中，输出层的计算复杂度随着类别数的增加而线性增长。层次Softmax通过构建二叉树，将输出类别组织成层次结构，只需在树中进行路径遍历，大大降低计算复杂度。具体步骤包括：

树构造：通常使用哈夫曼树构造层次Softmax。在训练过程中，频率高的词被放置在树的上部，频率低的词则在下部，这样可以提高常用词的预测效率。

问题2、mapreduce 原理和阶段

MapReduce是一种编程模型，用于处理和生成大规模数据集。其工作流程主要分为两个阶段：

Map阶段：

Shuffle和Reduce阶段：

问题3、minhash原理，LSH实现

MinHash是一种用于估计集合相似度的技术，特别适用于大规模数据集。其基本原理如下：MinHash通过对集合进行哈希处理，生成多个哈希值，并选取最小哈希值作为该集合的特征。多个哈希函数可以生成一组特征，从而形成一个签名。

LSH（局部敏感哈希）：基于MinHash实现的技术，通过将相似的对象映射到同一桶中来加速相似度查询。步骤包括：

问题4、sentence-bert原理

Sentence-BERT是一个用于句子相似度计算的模型，基于BERT模型进行扩展。其主要原理如下：

问题5、BERT原理、维度、词表大小，模型结构、位置编码类型

BERT（Bidirectional Encoder Representations from Transformers）是一种预训练的语言模型，其核心原理如下：

问题6、precesion、recall、AUC指标和应用场景

Precision（精确率）：真正例占所有预测为正例的比例。高精确率表示模型在预测为正例时较为准确。

Recall（召回率）：真正例占所有实际正例的比例。高召回率表示模型能够捕捉到大多数正例。

AUC（曲线下面积）：ROC曲线下的面积，AUC值越接近1表示模型性能越好。AUC常用于二分类模型的性能评估，尤其在类不平衡时。应用场景：

问题7、LR、随机森林、GBDT的区别

逻辑回归（Logistic Regression, LR）：

随机森林（Random Forest, RF）：

梯度提升树（Gradient Boosting Decision Trees, GBDT）：

问题8、word2vec原理

Word2Vec是由Google提出的一种将词映射为向量的技术，其核心目标是捕捉词的语义关系。Word2Vec的实现主要有两种模型：Skip-gram和CBOW（Continuous Bag of Words）。

训练过程：