达观数据主办的“达观杯”文本智能处理挑战赛开赛以来,已经有快1200名小伙伴报名参赛,大家经常在群里讨论技术问题,热情高涨,很多人表示希望自己在NLP领域技术能更加精进。

自然语言处理作为人工智能的核心领域一致广受关注,为了帮助小伙伴们更好地了解NLP相关学习内容,小编找来达观数据NLP研究院的5位同事,给大家推荐了从入门到进阶不同阶段的书籍,一起来看看吧~

入门阶段
1、数学之美(第二版)

推荐指数:★★★★★

适合人群:入门或初级学者

主要内容:

由原谷歌自然语言处理专家吴军博士将原谷歌黑板报内容重新编辑整理而成,让非专业人士也能了解到算法与常见应用的背后数学原理。作者介绍了分词、搜索、文本分类、去重、输入法、广告点击模型等众多方面的内容。

推荐理由:

本书内容浅显易懂,读起来一气呵成,畅快淋漓。能够将复杂的内容用平实的语言娓娓道来,足可见作者功力深厚。作者着重于介绍算法之“道”,而不拘泥于“术”。适合所有对自然语言处理的算法原理感兴趣的同学。

*达观数据高级NLP工程师杨慧宇 推荐

2、Python自然语言处理

推荐指数:★★★★☆

适合人群:入门到初级

主要内容:

本书是自然语言处理(NLP)领域的一本实用入门指南,是著名的Python语言自然语言处理库NLTK配套用书。该书内容丰富,涉及到自然语言处理的方方面面,包括分词、词典、词性标注、NER、语法分析、文本分类、语料库等等。通过本书由浅入深的介绍、实践和练习,可以快速的入门自然语言处理。

推荐理由:

本书的优点是非常明显,通过丰富的例子使得没有任何NLP经验的人都能够快速的接触到NLP方方面面的知识,同时丰富的习题可以巩固读者对所学习内容的理解和记忆。认真学完本书,读者能够知道NLP是什么,能够处理什么样的问题,以及使用Python在真实的情境中进行实践。本书对初学者十分友好,只要有一定编程基础的读者就可以跟随本书进入NLP的大门。本书的缺点也比较明显,那就是欠缺对中文的处理。

*达观数据副总裁 王文广推荐

3、机器学习

推荐指数:★★★★★

适合人群:入门或初级学者

主要内容:

由机器学习大牛周志华教授撰写,内容很全面,涵盖了绝大多数热门算法与模型。

推荐理由:

本书被戏称为西瓜书,内容基本涵盖了现在常用的各种算法,可以作为导论,支撑起整个知识框架,是非常好的入门型教科书,继续深入算法细节则需配合其他含有详细数学推导的书籍

* 达观数据NLP工程师曾彦能 推荐

从入门到进阶

1、深度学习

推荐指数:★★★★★ *2(两位工程师同时推荐)

适合人群:中级到高级

主要内容:

本书是由全球知名的三位深度学习专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville联合撰写,是深度学习领域奠基性的经典教材。全书内容涵盖了深度学习的基础与应用,理论和实践的各个方面的内容,包括数学基础、MLP、CNN、RNN、自编码器、GAN等等。

推荐理由:

可以说人工智能的这一波浪潮是从深度学习开始的,并且由深度学习的发展推动向前的。而深度学习发展到如今已经深入到AI的包括NLP在内的各个子领域。到如今,最前沿的NLP技术都或多或少的跟深度学习有关,从而想要站在NLP的最前沿的潮头搏击,对深度学习的了解和应用必不可少。认真学习完本书,对深度学习的理解将是全方位的。当然,本书的缺点非常明显,就是对初学者不友好,适合在机器学习领域有较深了解和一定实战经验、同时数学基础较好的人群。

*达观数据副总裁 王文广、达观数据NLP工程师曾彦能 推荐

2、统计学习方法

推荐指数:★★★★★*2(两位工程师同时推荐)

适用人群:机器学习、NLP相关人员

主要内容:

本书是介绍统计学习主要方法尤其是监督学习算法的一本书,包括从感知机、朴素贝叶斯、决策树、SVM到HMM、CRF等多种方法,详细介绍了每个方法的理论基础及算法公式推导。这些方法模型适用于多个领域,对于深入理解机器学习起到很大帮助。

推荐理由:

这本书不厚,是一本具有中国特色的“浓缩”书籍,涵盖了最重要且最常用的几种机器学习方法,结构清晰明了,很多算法在NLP领域中得到广泛使用。虽然有很多数学公式推导,但是对于理解算法背后的原理很有帮助。虽然当前深度学习方法当道,但是对于这些传统机器学习方法的理解和掌握不能落下,能够让我们更加深刻的理解机器学习背后的原理,更好的帮助我们解决分析实际问题。

*达观数据联合创始人 高翔、达观数据NLP工程师李瀚清 推荐

3、Speech and Language Processing(2nd edition)

中文版:自然语言处理综述

推荐指数:★★★★★

适合人群:初级到中级学者

主要内容:

本书作为自然语言处理领域的经典教材,被众多国内外高校列为参考书籍。作为一本初级教材,本书从词汇、句法、语义、语用等各个层面系统而全面的介绍了自然语言处理领域的相关知识。内容扎实、注重原理,同时第三版也加入了深度学习与自然语言处理最新应用的内容。

推荐理由:

作为一本入门教材,最好是能够有出色的大局观,内容也应该面面俱到,而不是限于某个流派,本书可以说做到了这点。无论是语言学,统计机器学习还是神经网络流派,本书都有所涉及,避免使初学者对流派有先入为主的想法。同时,本书对基础原理有着深入的阐述,无论是初读,亦或是有一定经验的从业者回过头看,都会有很大的收获。如果说,只能推荐一本参考书籍,那此书无疑是首选。有条件的话,推荐阅读英文原版。

注:英文第三版草稿地址

http://web.stanford.edu/~jurafsky/slp3/

*达观数据高级NLP工程师杨慧宇 推荐

4、统计自然语言处理(第2版)

推荐指数:★★★★☆ *2(两位工程师同时推荐)

适合人群:初级到中级学者

主要内容:

本书介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等。

推荐理由:

本书很全面介绍了自然语言的各个方面,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。通过此书,可以对自然语言处理领域建立一个全面的认识。

*达观数据联合创始人 高翔、达观数据NLP工程师李瀚清 推荐

从进阶到无敌
1、普林斯顿数学指南

推荐指数:★★★★★

适合人群:中级到专家级

主要内容:

本书是由Fields奖得主T.Gowers主编、133位著名数学家共同参与撰写的大型文集,全书由288篇长篇论文和短篇条目构成,目的是对20世纪最后一二十年纯粹数学的发展给出一个概览,以帮助青年数学家学习和研究其最活跃的部分。

推荐理由:

说实话,能够完全读懂这书的概率不大,笔者本人到目前为止也未读完,但部分章节则阅读过多次。推荐本书的理由是,作为常年在NLP和AI领域摸爬滚打的挨踢人士,或多或少的都需要读一些前沿的论文,了解最新的进展。这个过程中,不可避免的会遇到遗忘的或未学习过的一些数学知识。这时候,翻翻手头这套《普林斯顿数学指南》将会受益匪浅。除此之外,由于本书的特色,每个章节都单独成篇,有空的时候随意翻翻也能够让自己开阔眼界,有所得。

注:本书完整版三卷内容,同时推荐英文版:The Princeton Companion to Mathematics

*达观数据副总裁 王文广推荐

看完了书单,有你想读的吗?

欢迎大家在达观数据公众号(ID:Datagrand_)留言区留言,分享你最喜欢的一本书及理由,获得点赞最多的5位小伙伴将得到达观数据的赠书哦~

“达观杯”文本智能处理挑战赛还在火热报名中哦~

和1200位技术小伙伴切磋交流

还有万元奖金,直通Offer等你来拿