揭秘自然语言处理中预训练语言模型的“魔力”之源

博文小编

2021-07-23

自然语言处理被誉为“人工智能皇冠上的明珠”!

深度学习等技术的引入为自然语言处理技术带来了一场革命,近年来也出现了自然语言处理的新范式。

为什么自然语言是“人工智能皇冠上的明珠”呢?

自然语言处理,英文名称是Natural Language Processing,简称NLP,主要研究用计算机来理解和生成自然语言的各种理论和方法。

其中,自然语言指的是人类语言,特指文本符号,而非语音信号。对语音信号的识别与合成属于语音处理领域的研究范畴。

自然语言处理已经产生了很多实际的应用,如机器翻译、手机中的智能助手、文本校对等等。

包括多位图灵奖得主在内的多位知名学者都表示了对自然语言处理的极大关注。甚至图灵本人,也将验证机器是否具有智能的手段—“图灵测试”,设定为通过自然语言进行人机对话的场景。

可以说,只要涉及到文本的智能化处理,都离不开自然语言处理技术。然而,目前这些应用给用户的体验并不好,还远远没有达到人们的期待。这是什么原因呢?

这主要是由于自然语言处理属于认知智能任务,而认知智能是人类和动物的主要区别之一,需要更强的抽象和推理能力才能实现。通俗地讲,就是自然语言处理太难了!

那么,自然语言处理到底难在哪呢?

我们通过一个例子来看一下。

这是领导和阿呆的对话,其中有很多的“意思”,它们又有很多不同的意思。这体现了自然语言具有非常严重的歧义性的特点。

除了歧义性外,自然语言还具有高度的抽象性、近乎无穷变化的语义组合性、无处不在的进化性、非规范性、主观性、知识性、难移植性等八个主要特点。

以上这些难点和特点为自然语言处理带来了极大的挑战,并使自然语言处理成为目前制约人工智能取得更大突破和更广泛应用的瓶颈之一。

如今,自然语言处理的新范式是什么呢?

经过60余年的发展,人们已经研发了各种各样自然语言处理技术,这些纷繁复杂的技术本质上都是在试图回答一个问题:语义在计算机内部是如何表示的?

根据表示方法的不同,自然语言处理技术共经历了四次范式变迁,分别是小规模专家知识、大规模语料库统计模型、大规模语料库深度学习和大规模预训练语言模型。

特别是在2010 年之后,随着基于深度神经网络的表示学习方法(也称深度学习)的兴起,该方法直接端到端地学习各种自然语言处理任务,不再依赖人工设计的特征。

深度学习可以有效地避免统计学习方法中的人工特征提取操作,自动地发现对于目标任务有效的表示。在语音识别、计算机视觉等领域,深度学习已经取得了目前最好的效果,在自然语言处理领域,深度学习同样引发了一系列的变革。

虽然深度学习技术大幅提高了自然语言处理系统的准确率,但是基于深度学习的算法有一个致命的缺点,就是过度依赖于大规模有标注数据。

由于自然语言处理这一认知类任务所具有的“主观性”特点,以及其所面对的任务和领域众多,使得标注大规模语料库的时间过长,人力成本过于高昂,因此自然语言处理的标注数据往往不够充足,很难满足深度学习模型训练的需要。

早期的静态词向量预训练模型,以及后来的动态词向量预训练模型,特别是2018 年以来,以 BERT、GPT 为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点,帮助自然语言处理取得了一系列的突破。

所以,这种预训练 + 精调的模式,已经成为了自然语言处理的新范式。

所谓模型预训练(Pre-train),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。

为了能够刻画大规模数据中复杂的语言现象,还要求所使用的深度学习模型容量足够大。基于自注意力的 Transformer 模型显著地提升了对于自然语言的建模能力,是近年来具有里程碑意义的进展之一。

可以说,超大规模预训练语言模型完全依赖“蛮力”,在大数据、大模型和大算力的加持下,使自然语言处理取得了长足的进步。

那么,预训练模型是如何获得如此强大威力甚至是“魔力”的呢?

由车万翔老师等所著的《自然语言处理:基于预训练模型的方法》一书从预训练模型的角度对这两次重要的发展进行了系统性的论述,能够帮助读者深入理解这些技术背后的原理、相互之间的联系以及潜在的局限性,对于当前学术界和工业界的相关研究与应用都具有重要的价值。

内容概览

本书内容分为三部分:基础知识、预训练词向量和预训练模型。

第1部分:基础知识。包括第2~4 章,主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。

第2部分:预训练词向量。包括第5、6 章,主要介绍静态词向量和动态词向量两种词向量的预训练方法及应用。

第3部分:预训练模型。包括第7~9 章,首先介绍几种典型的预训练语言模型及应用,其次介绍目前预训练语言模型的最新进展及融入更多模态的预训练模型。

本书特色

1.结合具体案例讲解模型方法

2.各类结构图、模型图全彩印刷,一目了然

3.配套资源齐备

为了便于大家更好地学习,本书配备了丰富的学习资源,包括实践案例源代码、课后习题答案及PPT。此外,还有读者群供大家与作者随时交流!

适读人群

本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者,以及希望深入研究自然语言处理算法的计算机工程师阅读,也适合对人工智能、深度学习和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。

权威作者

专家力荐

希望本书能够为各位读者揭开预训练模型的神秘面纱。

读者评论

相关博文

  • 社区使用反馈专区

    陈晓猛 2016-10-04

    尊敬的博文视点用户您好: 欢迎您访问本站,您在本站点访问过程中遇到任何问题,均可以在本页留言,我们会根据您的意见和建议,对网站进行不断的优化和改进,给您带来更好的访问体验! 同时,您被采纳的意见和建议,管理员也会赠送您相应的积分...

    陈晓猛 2016-10-04
    5437 739 3 7
  • 迎战“双12”!《Unity3D实战核心技术详解》独家预售开启!

    陈晓猛 2016-12-05

    时隔一周,让大家时刻挂念的《Unity3D实战核心技术详解》终于开放预售啦! 这本书不仅满足了很多年轻人的学习欲望,并且与实际开发相结合,能够解决工作中真实遇到的问题。预售期间优惠多多,实在不容错过! Unity 3D实战核心技术详解 ...

    陈晓猛 2016-12-05
    3302 36 0 1
  • czk 2017-07-29
    5874 28 0 1