0 0 0

自然语言处理综论 第2版.pdf

北镇少年
4天前 150
我用夸克网盘分享了「自然语言处理综论 第2版.pdf」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
自然语言处理综论(第二版) 作者: Daniel Jurafsky(D. 朱夫斯凯)/James H. Martin(J. H. 马丁) 出版社: 电子工业出版社 原作名: Speech and Language Processing, 2nd Edition 译者: 冯志伟 出版年: 2018-3-1 页数: 816 定价: CNY 198.00 装帧: 平装 丛书: 经典译丛系列 ISBN: 9787121250583

内容简介

从本书第一版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。 本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。 本书在第一版的基础上增加了自然语言处理的最新成就,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书共分五个部分。第一部分“词汇的计算机处理”,讲述单词的计算机处理,包括单词切分、单词的形态学、最小编辑距离、词类,以及单词计算机处理的各种算法,包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、最大熵模型等。第二部分“语音的计算机处理”,介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”,介绍英语的形式语法,讲述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、统计剖析,并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”,介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学,并介绍同指、连贯等计算机话语分析问题。第五部分“应用”,讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出,实例丰富,引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材,也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的必备参考。

作者简介

Daniel Jurafsky 在伯克利加利福尼亚大学于1983年获语言学学士学位,1992年获计算机科学博士学位。现任斯坦福大学语言学系和计算机科学系副教授,主要研究方向为语言的概率模型和语音信息处理。他在语音和语言处理领域发表了90多篇论文,并在1998年获得美国国家基金会CAREER奖,在2002年获得Mac-Arthur奖。 James H. Martin 于1981年在哥伦比亚大学获计算机科学学士学位,1988年在伯克利加利福尼亚大学获计算机科学博士学位。现任博尔德的科罗拉多大学语言学系、计算机科学系教授,认知科学研究所研究员,主要研究方向为计算语义学、机器学习和信息检索。他发表过70多篇有关计算机科学的专著,出版了 A Computational Model of Metaphor Interpretation 一书。 译者简介 冯志伟 国家教育部语言文字应用研究所研究员、博士生导师。先后在北京大学和中国科学技术大学获双硕士学位,在语音和语言的计算机处理领域具有多年的研究经验,曾在多个国家参与研究和教学工作,主要研究方向为自然语言处理、计算语言学和机器翻译,主要著作有《自然语言的计算机处理》和《数理语言学》等18部。 孙乐 孙乐 中国科学院软件研究所中文信息处理研究室研究员、博士生导师。1998年在南京理工大学获博士学位,后在中国科学院软件研究所从事博士后研究。曾先后在英国 Birmingham大学、加拿大Montreal大学做访问学者。主要研究方向为自然语言理解、知识图谱、信息抽取、问答系统等。作为项目负责人完成国 家级项目30余个, 发表论文50余篇。

网友热评

:-D: 翻译非常之差,错译随处可见。而且中文版有符号脱漏。建议直接读英文原版或者对读。 zYx.Tom: 大块头,内容多,覆盖广,需要坚持读下去,读完后再结合宗老师的《统计自然语言处理》学习会有相辅相成的感觉。 方便贴500张: 好吧感觉有的章节还没有完全理解,有空对照第三版英文的再读第二遍。 烤年糕超好吃!: 除了厚得像块板砖之外没什么别的缺点了 虽然叫自然语言处理综论但花了很大篇幅讲语音 某种意义上是比现在常说的nlp更大的范围(笑) 纳言纳谏: 全书25章 比较厚 一百多买的纸质版 感觉比较值 全书翻译流畅 将自然语言处理的各个方面都有介绍 可以参考寻找下一步研究方向 只是缺少最新的文献及研究成果 值得多读几遍

图书目录

第1章导论 1.1语音与语言处理中的知识 1.2歧义 1.3模型和算法 1.4语言、思维和理解 1.5学科现状与近期发展 1.6语音和语言处理简史 1.6.1基础研究:20世纪40年代和20世纪50年代 1.6.2两个阵营:1957年至1970年 1.6.3四个范型:1970年至1983年 1.6.4经验主义和有限状态模型的复苏:1983年至1993年 1.6.5不同领域的合流:1994年至1999年 1.6.6机器学习的兴起:2000年至2008年 1.6.7关于多重发现 1.6.8心理学的简要注记 1.7小结 1.8文献和历史说明 第一部分词汇的计算机处理 第2章正则表达式与自动机 2.1正则表达式 2.1.1基本正则表达式模式 2.1.2析取、组合与优先关系 2.1.3一个简单的例子 2.1.4一个比较复杂的例子 2.1.5高级算符 2.1.6正则表达式中的替换、存储器与ELIZA 2.2有限状态自动机 2.2.1用FSA来识别羊的语言 2.2.2形式语言 2.2.3其他例子 2.2.4非确定FSA 2.2.5使用NFSA接收符号串 2.2.6识别就是搜索 2.2.7确定自动机与非确定自动机的关系 2.3正则语言与FSA 2.4小结 2.5文献和历史说明 第3章词与转录机 3.1英语形态学概观 3.1.1屈折形态学 3.1.2派生形态学 3.1.3附着 3.1.4非毗连形态学 3.1.5一致关系 3.2有限状态形态剖析 3.3有限状态词表的建造 3.4有限状态转录机 3.4.1定序转录机和确定性 3.5用于形态剖析的FST 3.6转录机和正词法规则 3.7把FST词表与规则相结合 3.8与词表无关的FST:Porter词干处理器 3.9单词和句子的词例还原 3.9.1中文的自动切词 3.10拼写错误的检查与更正 3.11最小编辑距离 3.12人是怎样进行形态处理的 3.13小结 3.14文献和历史说明 第4章N元语法 4.1语料库中单词数目的计算 4.2简单的(非平滑的)N元语法 4.3训练集和测试集 4.3.1N元语法及其对训练语料库的敏感性 4.3.2未知词:开放词汇与封闭词汇 4.4N元语法的评测:困惑度 4.5平滑 4.5.1Laplace平滑 4.5.2GoodTuring打折法 4.5.3GoodTuring估计的一些高级专题 4.6插值法 4.7回退法 4.7.1高级专题:计算Katz回退的α和P* 4.8实际问题:工具包和数据格式 4.9语言模型建模中的高级专题 4.9.1高级的平滑方法:KneserNey平滑法 4.9.2基于类别的N元语法 4.9.3语言模型的自适应和网络(Web)应用 4.9.4长距离信息的使用:简要的综述 4.10信息论背景 4.10.1用于比较模型的交叉熵 4.11高级问题:英语的熵和熵率均衡性 4.12小结 4.13文献和历史说明 第5章词类标注 5.1(大多数)英语词的分类 5.2英语的标记集 5.3词类标注 5.4基于规则的词类标注 5.5基于隐马尔可夫模型的词类标注 5.5.1计算最可能的标记序列:一个实例 5.5.2隐马尔可夫标注算法的形式化 5.5.3使用Viterbi算法来进行HMM标注 5.5.4把HMM扩充到三元语法 5.6基于转换的标注 5.6.1怎样应用TBL规则 5.6.2怎样学习TBL规则 5.7评测和错误分析 5.7.1错误分析 5.8词类标注中的高级专题 5.8.1实际问题:标记的不确定性与词例还原 5.8.2未知词 5.8.3其他语言中的词类标注 5.8.4标注算法的结合 5.9高级专题:拼写中的噪声信道模型 5.9.1上下文错拼更正 5.10小结 5.11文献和历史说明 第6章隐马尔可夫模型与最大熵模型 6.1马尔可夫链 6.2隐马尔可夫模型 6.3似然度的计算:向前算法 6.4解码:Viterbi算法 6.5HMM的训练:向前向后算法 6.6最大熵模型:背景 6.6.1线性回归 6.6.2逻辑回归 6.6.3逻辑回归:分类 6.6.4高级专题:逻辑回归的训练 6.7最大熵模型 6.7.1为什么称为最大熵 6.8最大熵马尔可夫模型 6.8.1MEMM的解码和训练 6.9小结 6.10文献和历史说明 第二部分语音的计算机处理 第7章语音学 7.1言语语音与语音标音法 7.2发音语音学 7.2.1发音器官 7.2.2辅音:发音部位 7.2.3辅音:发音方法 7.2.4元音 7.2.5音节 7.3音位范畴与发音变异 7.3.1语音特征 7.3.2语音变异的预测 7.3.3影响语音变异的因素 7.4声学语音学和信号 7.4.1波 7.4.2语音的声波 7.4.3频率与振幅:音高和响度 7.4.4从波形来解释音子 7.4.5声谱和频域 7.4.6声源滤波器模型 7.5语音资源 7.6高级问题:发音音系学与姿态音系学 7.7小结 7.8文献和历史说明 第8章语音合成 8.1文本归一化 8.1.1句子的词例还原 8.1.2非标准词 8.1.3同形异义词的排歧 8.2语音分析 8.2.1查词典 8.2.2名称 8.2.3字位—音位转换 8.3韵律分析 8.3.1韵律的结构 8.3.2韵律的突显度 8.3.3音调 8.3.4更精巧的模型:ToBI 8.3.5从韵律标记计算音延 8.3.6从韵律标记计算F0 8.3.7文本分析的最后结果:内部表示 8.4双音子波形合成 8.4.1建立双音子数据库的步骤 8.4.2双音子毗连和用于韵律的TD—PSOLA 8.5单元选择(波形)合成 8.6评测 8.7文献和历史说明 第9章语音自动识别 9.1语音识别的总体结构 9.2隐马尔可夫模型应用于语音识别 9.3特征抽取:MFCC矢量 9.3.1预加重 9.3.2加窗 9.3.3离散傅里叶变换 9.3.4Mel滤波器组和对数 9.3.5倒谱:逆向傅里叶变换 9.3.6Delta特征与能量 9.3.7总结:MFCC 9.4声学似然度的计算 9.4.1矢量量化 9.4.2高斯概率密度函数 9.4.3概率、对数概率和距离函数 9.5词典和语言模型 9.6搜索与解码 9.7嵌入式训练 9.8评测:词错误率 9.9小结 9.10文献和历史说明 第10章语音识别:高级专题 10.1多遍解码:N最佳表和格 10.2A*解码算法(“栈”解码算法) 10.3依赖于上下文的声学模型:三音子 10.4分辨训练 10.4.1最大互信息估计 10.4.2基于后验分类器的声学模型 10.5语音变异的建模 10.5.1环境语音变异和噪声 10.5.2说话人变异和说话人适应 10.5.3发音建模:由于语类的差别而产生的变异 10.6元数据:边界、标点符号和不流利现象 10.7人的语音识别 10.8小结 10.9文献和历史说明 第11章计算音系学 11.1有限状态音系学 11.2高级有限状态音系学 11.2.1元音和谐 11.2.2模板式形态学 11.3计算优选理论 11.3.1优选理论中的有限状态转录机模型 11.3.2优选理论的随机模型 11.4音节切分 11.5音位规则和形态规则的机器学习 11.5.1音位规则的机器学习 11.5.2形态规则的机器学习 11.5.3优选理论中的机器学习 11.6小结 11.7文献和历史说明 第三部分句法的计算机处理 第12章英语的形式语法 12.1组成性 12.2上下文无关语法 12.2.1上下文无关语法的形式定义 12.3英语的一些语法规则 12.3.1句子一级的结构 12.3.2子句与句子 12.3.3名词短语 12.3.4一致关系 12.3.5动词短语和次范畴化 12.3.6助动词 12.3.7并列关系 12.4树库 12.4.1树库的例子:宾州树库课题 12.4.2作为语法的树库 12.4.3树库搜索 12.4.4中心词与中心词的发现 12.5语法等价与范式 12.6有限状态语法和上下文无关语法 12.7依存语法 12.7.1依存和中心词之间的关系 12.7.2范畴语法 12.8口语的句法 12.8.1不流畅现象与口语修正 12.8.2口语树库 12.9语法和人的语言处理 12.10小结 12.11文献和历史说明 第13章句法剖析 13.1剖析就是搜索 13.1.1自顶向下剖析 13.1.2自底向上剖析 13.1.3自顶向下剖析与自底向上剖析比较 13.2歧义 13.3面对歧义的搜索 13.4动态规划剖析方法 13.4.1CKY剖析 13.4.2Earley算法 13.4.3线图剖析 13.5局部剖析 13.5.1基于规则的有限状态组块分析 13.5.2基于机器学习的组块分析方法 13.5.3组块分析系统的评测 13.6小结 13.7文献和历史说明 第14章统计剖析 14.1概率上下文无关语法 14.1.1PCFG用于排歧 14.1.2PCFG用于语言建模 14.2PCFG的概率CKY剖析 14.3PCFG规则概率的学习途径 14.4PCFG的问题 14.4.1独立性假设忽略了规则之间的结构依存关系 14.4.2缺乏对词汇依存关系的敏感性 14.5使用分离非终极符号的办法来改进PCFG 14.6概率词汇化的CFG 14.6.1Collins剖析器 14.6.2高级问题:Collins剖析器更多的细节 14.7剖析器的评测 14.8高级问题:分辨再排序 14.9高级问题:基于剖析器的语言模型 14.10人的剖析 14.11小结 14.12文献和历史说明 第15章特征与合一 15.1特征结构 15.2特征结构的合一 15.3语法中的特征结构 15.3.1一致关系 15.3.2中心语特征 15.3.3次范畴化 15.3.4长距离依存关系 15.4合一的实现 15.4.1合一的数据结构 15.4.2合一算法 15.5带有合一约束的剖析 15.5.1把合一结合到Earley剖析器中 15.5.2基于合一的剖析 15.6类型与继承 15.6.1高级问题:类型的扩充 15.6.2合一的其他扩充 15.7小结 15.8文献和历史说明 第16章语言和复杂性 16.1Chomsky层级 16.2怎么判断一种语言不是正则的 16.2.1抽吸引理 16.2.2证明各种自然语言不是正则语言 16.3自然语言是上下文无关的吗 16.4计算复杂性和人的语言处理 16.5小结 16.6文献和历史说明 第四部分语义和语用的计算机处理 第17章意义的表示 17.1意义表示的计算要求 17.1.1可验证性 17.1.2无歧义性 17.1.3规范形式 17.1.4推理与变量 17.1.5表达能力 17.2模型论语义学 17.3一阶逻辑 17.3.1一阶逻辑基础 17.3.2变量和量词 17.3.3λ表示法 17.3.4一阶逻辑的语义 17.3.5推理 17.4事件与状态的表示 17.4.1时间表示 17.4.2体 17.5描述逻辑 17.6意义的具体化与情境表示方法 17.7小结 17.8文献和历史说明 第18章计算语义学 18.1句法驱动的语义分析 18.2句法规则的语义扩充 18.3量词辖域歧义及非确定性 18.3.1存储与检索方法 18.3.2基于约束的方法 18.4基于合一的语义分析方法 18.5语义与Earley分析器的集成 18.6成语和组成性 18.7小结 18.8文献和历史说明 第19章词汇语义学 19.1词义 19.2含义间的关系 19.2.1同义关系和反义关系 19.2.2上下位关系 19.2.3语义场 19.3WordNet:词汇关系信息库 19.4事件参与者 19.4.1题旨角色 19.4.2因素交替(DiathesisAlternations) 19.4.3题旨角色的问题 19.4.4命题库 19.4.5FrameNet 19.4.6选择限制 19.5基元分解 19.6高级问题:隐喻 19.7小结 19.8文献和历史说明 第20章计算词汇语义学 20.1词义排歧:综述 20.2有监督词义排歧 20.2.1监督学习的特征抽取 20.2.2朴素贝叶斯分类器和决策表分类器 20.3WSD评价方法、基准线和上限 20.4WSD:字典方法和同义词库方法 20.4.1Lesk算法 20.4.2选择限制和选择优先度 20.5最低限度的监督WSD:自举法 20.6词语相似度:语义字典方法 20.7词语相似度:分布方法 20.7.1定义词语的共现向量 20.7.2度量与上下文的联系 20.7.3定义两个向量之间的相似度 20.7.4评价分布式词语相似度 20.8下位关系和其他词语关系 20.9语义角色标注 20.10高级主题:无监督语义排歧 20.11小结 20.12文献和历史说明 第21章计算话语学 21.1话语分割 21.1.1无监督话语分割 21.1.2有监督话语分割 21.1.3话语分割的评价 21.2文本连贯性 21.2.1修辞结构理论 21.2.2自动连贯指派 21.3指代消解 21.4指代现象 21.4.1指示语的五种类型 21.4.2信息状态 21.5代词指代消解所使用的特征 21.5.1用来过滤潜在指代对象的特征 21.5.2代词解释中的优先关系 21.6指代消解的三种算法 21.6.1代词指代基准系统:Hobbs算法 21.6.2指代消解的中心算法 21.6.3代词指代消解的对数线性模型 21.6.4代词指代消解的特征 21.7共指消解 21.8共指消解的评价 21.9高级问题:基于推理的连贯判定 21.10所指的心理语言学研究 21.11小结 21.12文献和历史说明 第五部分应用 第22章信息抽取 22.1命名实体识别 22.1.1命名实体识别中的歧义 22.1.2基于序列标注的命名实体识别 22.1.3命名实体识别的评价 22.1.4实用NER架构 22.2关系识别和分类 22.2.1用于关系分析的有监督学习方法 22.2.2用于关系分析的弱监督学习方法 22.2.3关系分析系统的评价 22.3时间和事件处理 22.3.1时间表达式的识别 22.3.2时间的归一化 22.3.3事件检测和分析 22.3.4TimeBank 22.4模板填充 22.4.1模板填充的统计方法 22.4.2有限状态机模板填充系统 22.5高级话题:生物医学信息的抽取 22.5.1生物学命名实体识别 22.5.2基因归一化 22.5.3生物学角色和关系 22.6小结 22.7文献和历史说明 第23章问答和摘要 23.1信息检索 23.1.1向量空间模型 23.1.2词语权重计算 23.1.3词语选择和建立 23.1.4信息检索系统的评测 23.1.5同形关系、多义关系和同义关系 23.1.6改进用户查询的方法 23.2事实性问答 23.2.1问题处理 23.2.2段落检索 23.2.3答案处理 23.2.4事实性答案的评价 23.3摘要 23.4单文档摘要 23.4.1无监督的内容选择 23.4.2基于修辞分析的无监督摘要 23.4.3有监督的内容选择 23.4.4句子简化 23.5多文档摘要 23.5.1多文档摘要的内容选择 23.5.2多文档摘要的信息排序 23.6主题摘要和问答 23.7摘要的评价 23.8小结 23.9文献和历史说明 第24章对话与会话智能代理 24.1人类会话的属性 24.1.1话轮和话轮转换 24.1.2语言作为行动:言语行为 24.1.3语言作为共同行动:对话的共同基础 24.1.4会话结构 24.1.5会话隐含 24.2基本的对话系统 24.2.1ASR组件 24.2.2NLU组件 24.2.3生成和TTS组件 24.2.4对话管理器 24.2.5错误处理:确认和拒绝 24.3VoiceXML 24.4对话系统的设计和评价 24.4.1设计对话系统 24.4.2评价对话系统 24.5信息状态和对话行为 24.5.1使用对话行为 24.5.2解释对话行为 24.5.3检测纠正行为 24.5.4生成对话行为:确认和拒绝 24.6马尔可夫决策过程架构 24.7高级问题:基于规划的对话行为 24.7.1规划推理解释和生成 24.7.2对话的意图结构 24.8小结 24.9文献和历史说明 第25章机器翻译 25.1为什么机器翻译如此困难 25.1.1类型学 25.1.2其他的结构差异 25.1.3词汇的差异 25.2经典的机器翻译方法与Vauquois三角形 25.2.1直接翻译 25.2.2转换方法 25.2.3传统机器翻译系统中的直接和转换相融合的方法 25.2.4中间语言的思想:使用意义 25.3统计机器翻译 25.4P(F|E):基于短语的翻译模型 25.5翻译中的对齐 25.5.1IBM模型1 25.5.2HMM对齐 25.6对齐模型的训练 25.6.1训练对齐模型的EM算法 25.7用于基于短语机器翻译的对称对齐 25.8基于短语统计机器翻译的解码 25.9机器翻译评价 25.9.1使用人工评价者 25.9.2自动评价:BLEU 25.10高级问题:机器翻译的句法模型 25.11高级问题:IBM模型3和繁衍度 25.11.1模型3的训练 25.12高级问题:机器翻译的对数线性模型 25.13小结 25.14文献和历史说明 参考文献

自然语言处理综论

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件76556431@qq.com投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 千诗可叙
  • 北城以北安静的夜
  • 灵魂键盘手
  • 压寨夫人持有者
  • 无情之人的有情是真情
  • 对不起爱上你是我的错
  • 少了什么
  • 幻影舞者
  • 不减狂骄
  • 阳光未必暖人心
  • 听见你哭泣
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!