自然语言处理是人工智能的重要方向之一,被誉为人工智能皇冠上的“明珠”。它融合了语言学、计算机科学、机器学习等多学科内容。本书主要包含基础技术、核心技术以及模型分析三个部分。基础技术部分主要介绍自然语言处理的基础任务和底层技术,包含词汇分析、句法分析、语义分析、篇章分析和语言模型;核心技术部分主要介绍自然语言处理应用任务和相关技术,主要包括信息抽取、机器翻译、情感分析、智能 问答、文本摘要、知识图谱;模型分析部分主要介绍基于机器学习的自然语言处理模型的稳健性和可解释性问题。
探索自然语言处理的奥秘,让机器拥有人类智慧!
张奇,复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索,聚焦自然语言表示、信息抽取、鲁棒性和解释性分析等任务。兼任中国中文信息学会理事、中国中文信息学会信息检索专委会常务委员、中国人工智能青年工作委员会常务委员、SIGIR Beijing Chapter组织委员会委员等。多次担任ACL、EMNLP、COLING、全国信息检索大会等重要国际、国内会议的程序委员会主席、领域主席、讲习班主席等。近年来,承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目,在国际重要学术刊物和会议上发表论文150余篇,获得美国授权专利4项,作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持,获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、ACM上海新星提名奖、IBM Faculty Award等奖项。
桂韬,复旦大学自然语言处理实验室副研究员、硕士生导师。研究领域为预训练模型、信息抽取和鲁棒模型。在高水平国际学术期刊和会议上发表论文40余篇,主持国家自然科学基金、计算机学会、人工智能学会的多个基金项目。获钱伟长中文信息处理科学技术奖一等奖(2/5)、中国中文信息学会优秀博士论文奖、COLING 2018 最佳论文提名奖、NLPCC 2019 杰出论文奖,入选第七届“中国科协青年人才托举工程”、上海市启明星计划。
黄萱菁,复旦大学计算机学院教授、博士生导师。主要从事人工智能、自然语言处理和信息检索研究。兼任中国中文信息学会理事,中国计算机学会自然语言处理专委会副主任,中国人工智能学会女科技工作者委员会副主任,计算语言学学会亚太分会副主席,亚太信息检索学会指导委员会委员。近年来,承担了国家重点研发计划课题、国家自然科学基金等多个项目,在国际重要学术刊物和会议上发表论文150余篇。获钱伟长中文信息处理科学技术奖、上海市育才奖、人工智能全球女性学者、福布斯中国科技女性等多项荣誉。
本书的目标是介绍自然语言处理的基本任务和主要处理算法。为了能够让读者更好地了解任务的特性和算法设计的主要目标,在介绍每个自然语言处理任务时,除了介绍任务的目标,还会介绍该任务所涉及的主要语言学理论知识以及任务的主要难点。针对自然语言处理历史发展过程中的不同研究范式,选择不同类型的算法进行介绍。因此,在大多数情况下,每个章节都分为如下几个部分:任务概述、相关语言学知识、基于规则的方法、基于特征的机器学习方法、基于深度神经网络的算法、任务评测指标和常见的数据集合。针对同一种机器学习算法可以被应用于不同任务的问题,为了避免重复,我们在不同的任务中选择同一类别的不同机器学习算法进行介绍,并说明该算法还可以被应用于哪些任务,以及该类型的任务应该采用哪种类别的机器学习算法。尽量使读者能够建立起自然语言处理任务和机器学习算法之间的关系,即如何将自然语言处理任务转换为机器学习问题,如何选择合适的机器学习算法,如何根据任务特性设计机器学习算法。希望读者通过阅读本书,能够了解不同任务的难点和算法设计的要点,明确自然语言处理方法和机器学习算法之间的关系。虽然我们在这个问题上花费了大量的时间对本书的结构进行设计,但是对于初学者来说,这仍然是需要相当多的实践才能更深入领悟的部分。
本书主要面向高年级本科生和研究生,作为自然语言处理相关课程教材使用,也可以作为对自然语言处理感兴趣的读者入门之用。在撰写本书的过程中,尽量平衡学生的知识储备水平与内容完备性之间的关系。在内容选择上,主要针对计算机和人工智能领域学生的基础知识特点,对语言学理论的介绍略显单薄,在语言学理论内容的选择上也偏重经典,对不同语言学理论之间的关系以及最新的语言学前沿研究的介绍较为缺乏。对于有志于从事自然语言处理研究的读者,可以进一步拓展阅读语言学相关领域知识。由于很多自然语言处理任务都被转换为机器学习问题,采用各种类别的统计机器学习算法进行解决,因此本书的介绍必然涉及机器学习中的模型选择、学习准则设定以及优化算法使用等问题。本书在介绍相关算法时,以如何将特定自然语言处理任务转换为机器学习问题为重点,对于优化算法选择等基础问题需要读者参考机器学习和深度学习的书籍。建议读者在阅读本书前,系统地学习机器学习和深度学习的相关课程。
在内容组织方面,本书主要包含基础技术、核心技术和模型分析三个部分。基础技术部分主要介绍自然语言处理的基础任务和底层技术,主要包含词汇分析、句法分析、语义分析、篇章分析和语言模型。核心技术部分主要介绍自然语言处理的应用任务和相关技术,主要包含信息抽取、机器翻译、情感分析、智能问答、文本摘要、知识图谱。模型分析部分主要介绍基于机器学习的自然语言处理模型的稳健性和可解释性问题。在教学课时安排上,可以满足 32 ~56 学时的教学安排。模型稳健性和模型可解释性是近年来人工智能领域的研究热点,但是也涉及各类自然语言处理任务和模型,需要读者花费更多的时间在相关任务实践中学习。