问题1:在包含 N 个文档的语料库中,随机选择一个文档。该文件总共包含 T 个词,词条「数据」出现 K 次。如果词条「数据」出现在文件总数的数量接近三分之一,则 TF(词频)和 IDF(逆文档频率)的乘积的正确值是多少?

A、KT * Log(3)

B、K * Log(3) / T

C、T * Log(3) / K

D、Log(3) / KT

答案:B

解析:TF 的公式是 K/T,IDF 的公式是 log = log(1 / (⅓)) = log (3) 因此正确答案是 Klog(3)/T

问题2:参阅以下的文档词矩阵 下面哪个文档包含相同数量的词条,并且在整个语料库中其中一个文档的词数量不等同于其他任何文档的最低词数量。

A、d1 和 d4

B、d6 和 d7

C、d2 和 d4

D、d5 和 d6

答案:C

解析:文档 d2 和 d4 包含 4 个词条并且不是词条最低数量 3。

问题3:参阅以下的文档词矩阵 语料库中最常见和最稀少的词条分别是什么?

A、t4、t6

B、t3、t5

C、t5、t1

D、t5、t6

答案:A

解析:t4和t5出现的文档数最多,二者相比之下,t4出现的总次数较多,故最常见的词条是t4;t6只在 d3 和 d4 中出现,在语料库中出现的次数也最少,故最稀少的词条是t6。

问题4:参阅以下的文档词矩阵 在整个语料库中使用最大次数的词和它的词频分别是?

A、t6,2/5

B、t3,3/6

C、t4,2/6

D、t1,2/6

答案:B

解析:t3 在整个语料库中的使用的最大次数是 3,t3 的词频是 3/(2+1+3)=3/6

问题5:下列哪种方法不是灵活文本匹配的一部分?

A、字符串语音表示(Soundex)

B、语音发声散列(Metaphone)

C、编辑距离算法(Edit Distance)

D、关键词哈希算法(Keyword Hashing)

答案:D

解析:除了关键词哈希算法,其它所有方法都用于灵活字串匹配

问题6:Word2vec 模型是一种用于给文本目标创建矢量标记的机器学习模型。对于Word2vec,它包含多个深度神经网络,这么说对么?

A、对

B、错

答案:B

解析:Word2vec 也包含预处理模型(preprocessing mode),它不属于深度神经网络。

问题7:关于无语境依赖关系图(context-free dependency graph),句子里有多少子决策树(sub-trees)?

A、3

B、4

C、5

D、6

答案:D

解析:依赖关系图中的子决策树可以被看做是拥有外部连接的节点,例如:Media, networking, play, role, billions, 和 lives 是子决策树的根。

问题8:文本分类模型组成部分的正确顺序是:

1. 文本清理(Text cleaning) 2. 文本标注(Text annotation) 3. 梯度下降(Gradient descent) 4. 模型调优(Model tuning) 5. 文本到预测器(Text to predictors)

A、12345

B、13425

C、12534

D、13452

答案:C

解析:正确的文本分类模型包含——文本清理以去除噪声,文本标注以创建更多特征,将基于文本的特征转换为预测器,使用梯度下降学习一个模型,并且最终进行模型调优。

问题9:下列那种模型可以被用于文本相似度(document similarity)问题?

A、在语料中训练一个由词到向量(word 2 vector)的模型来对文本中呈现的上下文语境进行学习

B、训练一个词包模型(a bag of words model)来对文本中的词的发生率(occurrence)进行学习

C、创建一个文献检索词矩阵(document-term matrix)并且对每一个文本应用余弦相似性

D、上述所有方法均可

答案:D

解析:word2vec 模型可在基于上下文语境的情况下用于测量文本相似度。词包模型(Bag Of Words)和文献检索词矩阵(document term matrix)可以在基于词条的情况下用来测量相似度。

问题10:下列哪些是语料库的可能性特征?

1. 文本中词的总数 2. 布尔特征——文本中词的出现 3. 词的向量标注 4. 语音标注部分 5. 基本依赖性语法 6. 整个文本作为一个特征

A、1

B、12

C、123

D、1234

E、12345

F、123456

答案:E

解析:除了全部文本作为特征这个选项,其余均可被用作文本分类特征,从而来对模型进行学习。

— 福利课程 —

主题:七月在线【Transformer与Bert特训4】课,原价299元,限时1元秒杀

开课时间:2021年11月26日(本周五)

课程链接:https://www.julyedu.com/course/getDetail/370

课程内容主要包括:前馈神经网络、词嵌入技术、注意力机制、位置编码、Encoder、Decoder、LayerNorm、Masked LM、Next Sentence Prediction 等。

除此之外,本课程还增加了Transformer 与 BERT的案例讲解︰FAQbot和聊天机器人。

理论及实践的完美结合,通过全套的课程讲解,帮你在脑海中搭建模型的基本框架,让你彻底搞懂每一个知识点,从而提高你写代码的速度。

课程包括完善的【大咖授课】+【助教答疑】+【班主任督学】+【免费CPU云平台】服务,确保每一位小伙伴都能愉快的学习知识。

怎么样?心动了吧!在售价299元的课程,今天大家点击阅读原文即可1元购买,有兴趣的抓紧抢购,先报先占位!

免费资料&福利

最新大厂面试题

AI开源项目论文


NLP ( 自然语言处理 )


CV(计算机视觉)