全球快资讯：基于词串的小语种预训练语言模型及语言分析技术

摘要**：**基于数据驱动的统计和深度学习模型，难以真正理解语言中的概念和语义。通过建构藏文 Hownet 语义知识库以验证 Hownet 知识的完备性，并以汉藏英多语言知识详细梳理了 Hownet 的动态语义角色知识体系。借重于知识库的“数据 + 知识”方法能够支持从感知智能到认知智能的跃迁，应该成为今后一段时期自然语言理解研究的重点任务之一。

(资料图片)

关键词**：**人工智能；自然语言理解；HowNet；语义

0 引言

人工智能（AI）是跨越计算机科学、数学、认知科学及神经科学等学科的一门先进技术。自 1956年，在美国达特茅斯会议上正式提出 AI 之后，其发展主要经历了三个时期。20 世纪 90 年代以前，采用专家系统和知识工程的方法，构建“知识 + 逻辑符号”系统来模拟人类的智能阶段，称为知识（规则）驱动的 AI；然而，受限于当时人工知识（规则）对自然语言的描述能力，这一时期 AI 基本局限在实验室研究范畴。从 20 世纪 90 年代中期直到近几年，AI 的机器学习相继跨入到统计机器学习及深度机器学习时期，称之为数据驱动的 AI 时代。这一阶段由于机器性能的大幅提升，以大规模真实语言数据训练自然语言处理（(NLP) 模型成为可能，并逐步并广泛进入社会应用领域。然而，上述方法的缺陷在于，第一代知识驱动的 AI 主要靠人工从原始数据中获取知识，效率低、规则描述能力有限等；第二代数据驱动的 AI 可以从训练数据中自主地获取知识，但其性能受到数据规模和质量限制，鲁棒性差，易受干扰，是“黑箱操作”。为了建立一个全面反映人类智能的 AI，需要建立鲁棒性强、可解释的 AI 理论与方法，即第三代 AI。2018 年底，张钹院士公开提出第三代“知识 + 数据”双轮驱动 AI 的理论框架体系。因此，在基于大数据的深度学习进入发展的“瓶颈”期后，从 2018 年至今，AI 开始进入到发展的第三个时期。这一时期不再只关注数据，知识的获取重新得到了极大重视。实现真正的智能系统，需要将数据和知识进行深度融合，在数据上要有归纳能力，能够举十得一；在知识上，要有逻辑推理能力，能够举一反三。

1 从感知到认知

目前，随着算力、算法等技术发展，AI 技术已经拥有快速计算、记忆和储存的能力。基于大数据驱动的深度学习方法，能够挖掘高维数据复杂的结构特征，并用人类熟悉的方式沟通和互动，具备了视觉、听觉和触觉等感知能力，在语音、图像、文本和视频识别等方面已经逐渐接近甚至超越了人类的水平。

然而，在数据驱动的感知 AI 框架中，只要轻微变动图像、文本或语音数据就可以欺骗这些已经训练好的系统，造成感知误判；尽管机器能够识别物体，但其实它并不认识这个物体。以图像识别为例，通常给定大规模规格化、清晰对齐、无噪声及正面角度的图像库来训练模型，将图像识别系统应用到无人驾驶汽车场景下，破旧的停车标志被无视、远处的人类被识别成狗、校车被识别成鸵鸟等各种错误案例层出不穷。因为数据驱动的深度学习只能学习重复出现的局部特征，无法解决认知的问题，也没有办法做推理的思维过程，所以机器学习模型具有鲁棒性差的缺陷已成为学界共识。要让无人驾驶汽车在面对路线、信号、地理、交通、气象等突发实时状况，能够达到人类的心智水平，具备很强的应变、分析和决策能力，并非特定的函数设计所能实现，无法回避的核心是缺失认知智能。

人类引以为傲的认知能力，都是以语言为载体进行的。自然语言理解（NLU），是第三代 AI 的终极目标，旨在赋予机器阅读和理解人类语言的能力。由于人类自然语言的复杂性，目前的机器学习系统仅能进行数据处理，并不能真正理解数据的含义，通过缩小任务范围或扩大数据集来回避处理语义的问题，机器只是“记录”数据，但没有“理解”数据，所以机器在 NLU 方面的表现远不如人类。

现阶段面临的最大挑战是如何从更丰富的感知识别演变为自主推理的认知理解，以此来打通感知和认知之间的隔阂。因此，第三代 AI 开启新的突破和创新，利用语言知识资源建立对自然语言文本背后的语义预测，超越对词语字符识别的范畴，帮助机器进行语义理解和常识推理，实现机器对人的模拟，这不是机理性的，而是功能性的。

2 “数据 + 知识”双驱动的 NLU

2.1 NLU 解难在哪里

自然语言总是涉及对现实世界事件的描述。实现对自然语言的理解，需要依赖人类常识及上下文语境，挖掘语言潜在语义的逻辑和因果关系。由于自然语言本体的一些固有特性，也会导致计算机语言理解的困难。

（1）语言的简洁性

由于说话、书写、阅读速度的限制，自然语言表达非常简练，形成固定短语表达或俗语。比如，咿呀学语、寿终正寝、春华秋实、落叶归根等，这些词语的真实语义并非语言表层含义。让计算机用程序思维去直接认知、理解、推理词语中深层的动物生老病死、植物自然衰亡等常识知识并不容易。

（2）语言的歧义性

有些语句单独看充满了歧义，例如“双肩包不要退了”“老王的画很名贵”。在不同的语气、语境及对话的上下文逻辑和生活常识条件下，语句会产生不同的理解。

（3）语言的时代性

自然语言随着时代的发展，不断引入新的表述概念和语义。诸如“针不戳”“芜湖起飞”“凡尔赛”“双十一最该打折的东西，是自己的手”等新词新语、旧词语新意、音译外来词、多义词、缩略词和多音词等的正确语义都需要结合时代性背景知识来帮助理解。

人类理解和生成语言，依赖词汇、句法、语义等语言本体知识，以及自然常识、人文和自然科学知识等。对于机器来说，基本要求是具备一定的逻辑推理能力和认知能力。认知活动最本质的特点是利用知识来指导行为，涉及三个方面的内容，首先是信息的获取、表示并转化为机器知识；其次是知识的存储和提取；最后是运用知识进行推理等处理过程。认知过程主要是知识存储并利用知识进行语义推导。为使计算机具备一定的认知能力，需要对各类知识进行形式化表示，以及用能够让计算机可以识别的形式加以合理地描述和存贮。

因此，实现真正的 NLU 需要解决两个问题，首先获取、表示及计算隐含的、高度多样化的多源知识；其次，整合这些抽象知识到 AI 系统中，帮助机器进行语义理解和常识推理。回顾第一代、第二代 AI 发展史，贯穿 NLP 的两大代表性方法——基于知识的方法和基于统计的方法。

2.1.1 基于知识的方法

专家系统和知识工程作为认知智能的早期代表，学者们提出“将知识引入 AI 领域”，为计算机理解自然语言建造了各种知识库，此类研究一般以某种语言为主体语言设计知识库的框架结构，并以此为基础添加其他语言。目前，项目开发成熟、较有影响力的语言知识库有 WordNet、FrameNet、PropBank、HowNet 等，其信息如表 1 所示。

表 1 语义知识库项目信息

通过知识库系统确定句子中每个单词的作用，并提取上下文的含义。知识库提供了良好的逻辑性和可解释性的语言分析方法，但却严重依赖人工定义的范畴与规则。虽然人类是用其全部的经验与知识来理解和生成语言的，但是人工知识库仍然难以完整地表示人类的经验和知识并全部编码进入计算机，这类知识缺少对特征抽象和学习的能力。

2.1.2 基于统计的方法

受限于人工知识库存在规模较小、自动构建能力不足、知识获取困难等一系列问题，学界出现了从大量数据的概率分布中学习基于统计的模型和方法。为了让计算机处理语言文本，需要将字、词、段落等信息转换为机器可以理解的方式进行，以便在计算机中表示语言或文本，并能让计算机程序自动处理，这就是语言表示。

早期的语言表示是以词袋模型、N 元模型为代表的离散表示，仅仅将词符号化，词与词之间没有距离的概念，两个词只要字面不同就难以刻画它们之间的联系，比如“电脑”和“计算机”这样的同义词会被看成是两个不同词。因此，导致语义鸿沟、维度灾难等问题的出现。

与离散表示不同的是连续表示，将语言表示为连续空间中的一个点，即连续向量。这种表示的优势可以把对文本内容处理简化为连续向量空间中向量运算，通过计算向量空间上的相似度，来表示文本语义上的相似度，计算机很容易处理“向量”，因此取得很好效果。Word2Vec 作为词汇连续表征的代表性方法，能够将同义词相互映射，借此对大小、性别、速度等语义进行建模；甚至能够将国家与首都等语义特征关联起来，可以有效地处理传统离散表示中的“一词多义”和“一义多词”问题。但是，将文本以向量形式表示时，忽略了词语内部语义或词序信息的考量，也出现了不少问题。比如，图 1中实验，我们通过调用 Word2Vec 的中文词向量模块预测汉语相似词，当输入中性词“理解”时，系统给出的相似词权重排序，符合人们认知；当输入有感情色彩的词语“好人”时，Word2Vec 给出的最大相似词是“坏人”，并且预测结果多数是贬义词。这是因为在 Word2Vec 词向量映射空间中，采用余弦相似度判断词汇之间的相似度，“好人”与“坏人”对应的的词向量距离最近，但是二者却是两种语义完全相反的词汇。

图 1 Word2Vec 预测中文相似词结果

由于自然语言由词汇、短语、句子、篇章和文档等不同粒度的语言单位组成，词汇是最基本的语言单位，背后关联着丰富的语义信息。Word2Vec 基于上下文学习方法的词向量技术倾向于把贡献较多的词语聚在一起，可以学习到上下文语境相似的词汇，却难以捕获到深层词汇语义的相似性，特别是语料中出现频次较低的词语义项的相似性。我们只知道某个词可以用几百维的向量表示，但为什么能表示这个词，这个词确切有什么含义却无法解释。

2.2 “知识 + 数据”双驱动

近年来，深度学习技术充分利用神经网络的分布式表示能力和层次结构泛化能力，从大规模数据中自动学习，显著提升了对无结构文本、图像、语音数据背后语义信息的表示与学习性能，将数据驱动方法推向新高度。另一方面，纯数据驱动深度学习是输入和输出之间的特征关系，不具备因果推理性，缺少可解释性。对大规模数据的学习与利用，离不开深度学习技术，但要实现有理解能力的 AI，还需要人类认知知识作为支撑。

3 语言知识图谱

不同于传统知识工程的“小知识”，以知识图谱为代表的大数据时代各种知识系统，受益于海量数据、强大算力、最优算法，能够自动构建大规模、多领域、高质量的知识库，形成所谓的“大知识”。知识图谱把非结构化、离散的知识以图结构形式组织起来，从而描述关于世界万物的概念、实体、事件及其之间的关系。知识图谱包含的背景，赋予机器精准查询、深度理解与逻辑推理等能力，被广泛运用于实体消歧、推荐系统、问答系统和复杂问题推理等任务，在认知智能实现中起到非常重要的作用。

今后深度学习和知识图谱将呈现不断增强、共同发展的态势，一方面，深度学习可以从数据中（有标注数据、弱标注数据及无标注数据）学习和挖掘有用信息，为大规模知识图谱的补全提供支持；另一方面，知识图谱技术的成熟，获取的知识也可以被用于深度学习的知识指导，为知识融入深度学习框架提供了理论基础。

知识图谱根据所含知识类型的不同，可大致分为三种。① 语言知识图谱。自然语言具备的词法、句法、语义、语篇及语用等方面的语言知识，如WordNet、HowNet 是典型的词法知识图谱。② 尝识知识图谱。人类对自然界事物普遍认知的日常共识知识，如Cyc、ConceptNet 是典型的常识知识图谱。③ 社会知识图谱。现实世界中人类社会活动产生的各实体之间的事实知识和关系，如 WikiDatas、Freebase、DBpedia、YAGO 是典型的社会知识图谱。

除这些有典型代表的知识图谱外，还有涵盖特定专业及业务领域的专业知识图谱及商业知识图谱。以上知识类型划分并没有严格界限，如HowNet 既包含词法级语言知识，也包含大量的常识知识。本文以基于义原的语义知识图谱（又称为“语义知识库”）-HowNet 为例，探究语义知识库作为包含“本体知识”“语言知识”的基础知识工程，在“弱人工智能”转为“强人工智能”中发挥的关键作用。

3.1 HowNet 语义知识库

从语义层面讲，词可以具体细分成义项，义项又可以细分成义原。义原是人类语言最小的语义单位。在 NLU方面，义原更贴近语义本质，并且语言学家进一步认为义原体系在任何语言中都是适用的，并不与特定语言相关。为了将义原的语言学理论付诸实践，董振东和董强父子用30年之久构建了著名的中英义原知识库——HowNet，突破了词的屏障，以高度抽象化和形式化的语言描述客观世界中的概念，是我国首个从纯粹语义角度出发而构建的与具体语言无关的语义知识库，是深入了解词背后语义信息的重要通道，其设计理念是以一套形式化的普遍知识系统描写和解释自然语言。“义原”体系是其核心要素，主要分为两种，一种为“基本义原”，是对“本体知识”的解析和阐述，主要解决“符号根基问题”；一种为“动态角色义原”，是对句子成分之间语义关系的描述和说明，属于“语言知识”，主要解决“角色指派问题”。

在知识融合方面义原知识库具有无可比拟的优势，其一，现有深度学习算法将词语对应成模型中的处理单元，而 HowNet 关注义原与词之间的语义组合关系，那么该词的义原就可直接作为语义标签引入对应的处理单元中，这是其他词级别知识库无法做到的；其二，由于义原数量有限，一般均可以得到充分训练，将训练好的义原融入深度学习模型，可以缓解低资源数据情形下模型训练不足的问题。这一特点最典型的应用便是词表示学习，义原的引入可以提高低频词的词向量效果。

近年来，很多工作将语义知识库 HowNet 中的义原标注信息融入面向 NLP 的机器学习模型中，探索语义表示学习、词汇表示、义原推荐、词典扩展、实体关系、词义消歧和知识图谱等任务，验证了HowNet人工义原知识库与深度学习模型融合的有效性。3.2 基于HowNet 的藏语语义知识库研究HowNet 是一个蕴含语义信息最为丰富的大规模高质量中英文常识知识库，拥有超过10万条义原标注的知识词典。通过一套统一的义原标注体系，能够直接精准刻画词义的语义信息，其义原体系是基于人类对客观世界的普遍认知；其解释从概念最本质的特征开始，随后进行次要特征的描写，逐步对概念进行解析。在NLU方面，HowNet 更贴近语言本质特点。

如“警察”的某一义项被 HowNet 解释为

{human| 人：HostOf={Occupation| 职位 }，

domain={police| 警 }}

“ 警察”的本质特征为“人”；随后是次要特征——“ 职位（Occupation）” 之“ 宿主HostOf”“ 警” 的“领域（domain）”。其次，HowNet 是中英双语，这不仅表现在概念上中英文的对应，还表现在义原解释上中英文的结合。还是以“警察”为例，其英文对应为 police officer，义原解释采取了中英结合的方式，能够有效避免单一语言词形所产生的“歧义”问题。

HowNet和义原的优势近年来经过大量的实证研究得以验证。但令人遗憾的是，尚未有研究人员对HowNet知识体系的本身架构和相关理论进行深度探讨。HowNet目前仅有英语和汉语两种语言作为支撑，对其是否具备语言适应性和解释充分性的知识库，以及HowNet“本体知识”的基本义原和作为“句法 -语义接口”的“动态角色”定义的完备性和适应性研究尚未得到足够的重视。

因此，我们在HowNet 语义知识库的深层结构和语言适应性方面进行了初步探索研究。其中，藏语作为一种有格标记语言，其语义信息显于句法表层，和汉语在语法、语义上差别较大，将藏语纳入HowNet 是非常值得尝试的工作。不同于汉语，藏语的语义特征同句法结构有明显映射关系，如何科学地将其纳入 HowNet 系统并验证义原体系的普适性是研究重点。目前我们已完成 HowNet 框架下藏语语义知识库的构建工作。

3.2.1 动态角色义原体系的再厘定

HowNet 对基本义原的研究较为深入，其体系构建十分完整，但对代表句子成分之间语义关系动态角色义原的研究并不如前者。在实际处理中，我们发现动态角色在跨语言使用中遇到了一些问题，如在添加藏语时无法用 HowNet 动态角色对藏语的句法结构和语义特征进行充分地描写和解释。我们的研究结合藏语的特征，从多个视角对 HowNet 的动态角色义原进行分析和讨论，重新厘定部分存在问题和疑义的动态角色，并将原先零散、体系不清晰的动态角色纳入到确定层级和系统中。具体做了三项工作。① 对部分较为重要、存在问题的动态角色进行了再定义，对其本身的语义特征和限定范围进行了初步划分。② 指出动态角色义原之间存在对应关系，对其进行了讨论和分析，并对不同动态角色义原之间存在的对应关系进行了归纳。③ 指出动态角色义原之间的地位是不平等的，动态角色是具有层级性的、典型性渐弱的系统。

将核心的主客体动态角色纳入到与其相关的、特定的事件中进行考察，并从语义分类、藏语语法、认知等几个角度双向检验动态角色及其关联事件的“合法性”。

以藏语格助词和藏语传统文法在语义层面上对动词范畴的划分方式为参照，对 HowNet“动态角色”的定义、语义特征和限定范围进行了讨论，并明确了“动态角色”与“事件类基本义原”之间的关联关系，建立起结构化、分层次的“动态角色义原体系”。

3.2.2 藏语句法 - 语义一体化

根据建立的“动态义原角色义原”体系，使动态角色与藏语格助词相对应，并将其与特定事件相关联，实现了HowNet 框架下的藏语句法-语义一体化，为藏语语义知识库的构建提供了一种新思路。

3.2.3 构建藏汉知识词典

HowNet 知识系统描述语言在对概念进行解释时，缺乏一定的上下文语境，且 HowNet 采用人工构建方式，耗时耗力。我们使用基于统计和基于跨语言词向量的方法自动构建藏汉知识词典，并为其提供了丰富的上下文语境。

HowNet 本体知识的有效性和完备性，尚未在大规模语料中受到检验。我们利用大规模平行句对，从“符号根基问题”这一角度，对 HowNet 知识词典的有效性和完备性进行了评价和检验。由于篇幅所限，上述内容在此不再赘述，请关注作者相关论文研究。

4 结束语

本文探讨了后深度学习时代“知识 + 数据”驱动的NLU 模式，阐释将 HowNet 义原知识体系融入数据驱动的深度学习模型中具有不可比拟的优势，它也许会成为突破从感知智能到认知智能的NLU瓶颈的一把钥匙。在后续工作中我们会继续以多民族语言义原知识库构建为主要研究对象，扩大义原标注语种的范围，增强 HowNet 义原知识库在跨语言自然语言处理、语义理解和自动问答、文本生成等任务的适用性。

关键词：