多模态推理演算与学习

导读： 本文将分享多模态推理逻辑演算和机器学习相关研究。

主要从以下三点展开讲解：

演绎推理与统计推断
多模态推理分析
跨模态推理分析

分享嘉宾｜张小旺天津大学教授编辑整理｜潘晨辉沈阳工业大学出品社区｜DataFun

人工智能的发展需要经历四个阶段，分别是计算、感知、认知和意识。早期，以离散符号计算为主。从深度学习开始，模态语义提取，尤其是图像、文本和语音的技术得到了快速发展。近几年，主要关注文本理解，图像推理，复杂语义上的情感识别，目前集中在模态语义分析层面。这一层面相比深度学习，知识图谱非常重要，知识图谱可以显性表示知识，而不仅仅是向量。这样有助于人工地把经验嵌入进去，也有利于人工对机器学习语义分析的知识化。

2. 认知智能发展

推理在语义层面为语义蕴含。语义蕴含在逻辑上是对于语义的弱化，将显性的语义，对人类活动或者人类的行为映射。上边图片举了一个福字的例子，在中国传统文化里面，福字就是幸福和福气的意思，红色代表火热和吉祥，把两个语义进行融合，就有了福字，代表着既吉祥又幸福。常用于春联，又有一些企业用作商标。这就相当于示意的过程，以及推理的实用过程。认知智能赋予机器理解与模拟人的能力，实现记忆、学习、分析、理解、推理、判断，进而制定和智能决策的过程。

3. 认知智能到多模态

人的认知是基于多元感知的。自然语言处理，只是在单纯模态上面做语义分析，在应对复杂的认知和活动的时候，有一定瓶颈，所以需要做一个跨模态语义分析，以跨模态语义分析为基础的认知技术，是当下企业和学术界非常关注的课题。目前需要解决以下几大问题：

大数据多源异构性
语义的多模态特性
高级认知的复杂性

有一个非常有意思的问题，既然讲高级认知中，有一个非常重要的任务就是推理，是不做语义的蕴含，那么符号主义和连接主义，也就是人工智能两大学派，最顶层的融合，推理会不会成为一个技术突破口。接下来也将围绕此问题进行介绍。

02 演绎推理与统计推断

首先介绍演绎推理和统计推断，这是经典的语义蕴含推理，下面主要介绍演绎推理和归纳推理。

1. 演绎推理

演绎推理是从顶向下，从整体到个体，从共性到个性，从知识到事实的方式。早期的专家系统也是基于此，专家定义规则，然后从数据里面读入事实，利用规则进行推导，像数学证明一样，最后推出事实。

例如本体回答系统，就是从本体上面用事实回答事实。这些事实就是对应知识图谱的实体，比如判断个体是否属于某种类型，相当于做第一学习分类，不过是用推理实现的，又比如判断两个实体之间是否存在关系，相当于关系抽取，也是可以通过推理实现的。比如用 Prolog，是自然演绎传统的逻辑，形式化推导过程。

归约原理就是将推理问题归约可满足性问题，即SAT问题变成一些可满足性问题，是比较常见的一种逻辑的证明方式。

还有一种就是表演算，也就是可以构建森林，通过森林中树上的一些性质，能够判断知识库是否是可满足的，以此来判断其蕴含关系。

上图是一个表演算的例子，w，x，y 为实体，S，R 为两个实体之间的关系。与知识图谱不同的是把实体上都定义了类，利用实体描述这些类，但是这些类是复杂的，所以要通过每步进行增长，把这些复杂的类变成原子型的类，再通过原子 a 来判断概念是否满足。这是一个比较复杂的过程，10 年以前，语义网中的表演算研究非常流行，例如，牛津大学做了很多大量的非常著名的本地推理系统，并不是利用规则，而是利用树上的扩张，就是 Span Tree 的过程，复杂度和基于规则差不多。

2. 归纳推理

归纳推理和演绎推理不同，它和传统的统计分析和统计推断是一样的思路，即从个体到整体，从个性到共性，从数据当中获取经验知识的这种方式和知识图谱构建的思路是一脉相承的。比如事实，两个种类的鲸，都可以喷射水柱状的水，接下来观察发现，通过词性可以归类，鲸鱼都是可以喷射水柱状的水。可以作简单猜想，认为齿鲸是一种鲸鱼，那么齿鲸是可以喷射水柱的。前面两部分是归纳推理，后面部分是类比推理。

还有一种稍微复杂的情况，表示一个非线性的过程。可以引入马尔可夫逻辑网，马尔可夫逻辑网不仅在网络中使用，在自然语言处理中也经常使用。从形式化表达来看，就是一些规则，比如实数，还有事实集，和知识图谱一样的事实层面。比如 A 是开设一个类型，A 和 B 之间有某种关系。通过图上公式计算某一个点的概率 P(U)，通过下面的公式来计算：

计算 L(U)，也就是就单个 U 的值，通过以下公式：

这是一个可能的事件，绿色代表第一个规则被满足了两次，蓝色表示第二个规则也被满足两次。推理问题如果一个人得了癌症，B 得癌症的概率多大。

有两种情况，W 表示权重 1.5 和 1.1， $n_1$ 和 $n_2$ 分别表示规则 1 和规则 2。如果满足第一种情况，表示满足一次，因为 Cancer（B）为 0，当 Cancer（B）为 1 的时候正好是第二种情况，其他的规则都一样。计算以后发现，第二种情况 L 结果为 5.2，比较大，所以更可能患癌。这就是简单的马尔可夫逻辑网来表示推理。

演绎推理具有可靠的完备性，推理过程可表示、可回溯，逻辑可解释性。可靠完备性造成推理代价高（往往是 NP 难），效率低。其实大部分算法都是可靠的，但是在推理当中还要关注完备性，即推不出来的结果肯定是不正确的，也就是只要正确的结果都能推出。可靠和完备是推理的两个方向。语义的丰富完备很重要。

归纳推理具有不确定的语义、效率高、实用场景广，推理完备可靠性不高，逻辑可解释性差。

其它推理，比如类比推理，是个体到个体的推理；非单调推理，是不完全语义下的推理；朔因推理，是从推理结果到推理过程。

03 多模态推理分析

关于多模态推理分析，主要介绍知识图谱推理、文本理解和图像视频推理三个方面。

1. 知识图谱推理

本体是什么？本体就是对于真实世界的刻画，在构建知识图谱之前，需要定义本体，就是对事实的解释。知识图谱和复杂网络最大的区别，不仅仅是有标签，标签有一定的属性，但这个属性一定是有解释的，如果没有解释的就是复杂网络，有没有本体就是知识图谱和复杂网络最大的区别。

传统的表演算的方法，没有从数据库角度来考虑。推理比查询要复杂，查询是在有限的数据模型上进行，而且是单一的，但是推理是在无限大的模型上进行查询。第一件事就是把标准模型进行有限的物化，物化过后计算速度是知识图谱的线性倍数。逻辑证明它是可靠完备的推理，归约成一个查询问题。

结果显示，[1] 的预处理速度平均提高了 7 倍，最快的能够提升三个数量级。

知识图谱路径推理是通过连接实体之间已有路径，来预测实体之间的潜在关系，关系路径更清晰，融入到知识图谱嵌入表示当中，之后进一步将关系路径信息融合来提升推理的效果。

在这种情况下，知识图谱推理流程，通常以知识图谱作为输入，对实体的已有路径关系进行推理。得到表示实体之间的潜在规则，从严格意义上讲，这个过程并不是推理，只是路径的查询 [2]。

近三年内研究发现，规则学习 [3] 有助于自动的学习专家系统。知识图谱不仅仅是一个图形的结构，还可以表示规则的概念层次。比如，一个人出生在城市 y，国家 z，那么这个人就是 z 国的公民。规则学习就是对概念知识层的规则进行挖掘学习。在过去的几年时间，开发出了很多高效的学习系统，比如 RDF2rules、SWARM 等等。但是它们的优缺点很明显，比如对封闭路径规则的学习，表达能力是可以的，但是效率一直很低。

可以观察一下 2018 的工作 [4]，对效率有很好的提升，实验结果在性能上和表达性都有大大的提升。

输入知识图谱，目标谓词和最大规则的长度，然后返回一组 CP 规则。CP 规则头部是合群，返回关系，中间每一个位置之间都有共享的边量。在挖掘过程中要固定规则，并且借助 Embedding 的表示这样效果更快。

另一个知识图谱中代表性的工作是事理图谱。事理图谱是一种有向图形式的事理知识库，用于揭示事件与事件之间的演化规律和模式。结构上是有向的环图，节点表示事件，有向边代表事件的 4 种关系顺承、因果、条件和上下位关系，本质上事理图谱是事理逻辑知识库，描述事件之间的演化规律和模式，主要是做推理方向和路径查询。知识图谱逻辑层面语义表达能力并没有增加，把顺承、因果、条件上下位关系，嵌进去作为关系，对每一个点的事件，用属性图的形式表示。如右图所示。

这是事理图谱构建技术介绍，包括事件抽取、事件关系抽取和事件知识融合。事件抽取中从原始数据中抽取事件，相对容易一些。事件融合和传统的知识图谱融合是不一样的，最大的问题就是关系层面融合，不只是对齐的过程。

事理图谱的应用场景：热点事件检测、事件脉络分析、未来事件预测。

2. 文本理解

在文本理解中，神经网络模型已经取得瞩目的效果，但无法对输出结果给出合理的解释。其次，在很多自然语言任务中（比如问答），除了对输入文本进行理解，还需要一定的外部知识，这就要求模型具备推理能力。

文本理解推理系统 [5] 由知识和推理引擎两部分组成。通过知识中获取，推理推导，完成工作，这就是输入和返回答案的过程。

3. 图像视频推理

图像视频推理 [6] 就是在目标检测任务当中，利用物体与物体和场景与物体之间的关系进行建模，推理预测未知的物体类别。可以对图像目标，进行更加准确的预测，比如左侧图当中的一个小鼠标，右图中河中的汽车，出现了一些误解。

通过目标检测可以得到一些信息。比如这里可以获取姚明的人物信息以及背景信息，将这些信息和知识图谱信息进行关联，从推理图片的人物关系，就知道姚明和麦迪之间的关系。

在视频当中推理，通过构建本地知识图库，提取跨视频段关联信息，对视频内容进行准确描述。比如，一个场景是姚明在天安门，另外一个场景是姚明和麦迪在逛街，如图所示，我们可以推理出麦迪的信息位置。计算机在这个图像和视频当中，不仅仅做到内部的逻辑推理，还可以根据已有的信息，进行信息外延，达到较好水平的认知。

04 跨模态推理分析

1. 因果推断+文本理解

文本理解推理 [7] 是使用文本数据进行因果推理，但文本是高维的且需要复杂的建模来度量语义是否有意义，因此需要形式化因果问题所对应的干预。NLP 改进了预训练语言模型和监督主题模型来预测文本。考虑两种场景，第一个就是干预变量和结果都受到一些混杂因素的影响，比如评估在一篇论文中添加一个定理对该论文是否在计算机科学会议上被接受的影响，会受到论文主题、写作质量等混杂干扰。第二个场景是，比如考虑帖子的浏览量是否会受到作者性别的影响被同样受作者性别影响的语气、风格或主题等中介干扰。

定位成条件文本生成，并微调做一个生成器，为考虑这个目标，设计否定和删除等控制的规则，采用填空结构指定扰动发生在哪里以及如何发生，最终就生成出需要的反事实的样子。

左边图并非是反事实的样例，因此不受 x 环境干预，而对生成的文本表示阶段进行干预，影响 x 的两个属性都属于这个概念。右边这个图采用 MLM 和 NSP 进行预训练。

2. 一致性对话

一致性对话是自然语言处理当中非常重要的，但是一致性对话主要是体现对话的逻辑冲突性，对话固有的属性是阻碍生成一致性对话的重要原因。

为了更好的使模型能够理解会话的一致性，最简单的方法就构建数据集，如下图是一个对人物画像构建的数据集。这个人物主要是会话者之间的画像，会话输入回复都围绕着的背景知识来介绍和生成，在这种情况下就得到了一致性，这个数据集是为了测试有没有一致性的能力。

但是结构化角色信息，不会出现在普通预训练当中。要解决这个问题，使用了 TreeLSTM 学习结构化角色信息，与 BERT 这种对话融合，最后就得到一致性生成，学习训练 BERT 的语义，和预定义的画像之间进行匹配的过程。

这是对话当中的人设的问题，代表说话者的身份组合，在这个对话生成模型中，难以保证生成的回复符合给定人设，人设就是图中 Persona。

BOB 模型包含三种模块，即（1）编码模块，BERT E；（2）解码模块，BERT D1；（3）对话输入和角色输入的一致性理解模块，BERT D2。2021 年的研究，思考如何去学习人物画像，不仅仅面向有特定的领域，也对跨领域的进行一致性生成，但是这个工作还有很多的问题。

3. 图像 VCR

图像的 VCR 就是视觉常识推理，需要模型有认知能力，对场景视觉深入理解，来进行复杂的推理。在这里这个人为什么看他，就需要常识，因为需要补充文本和图片之间的共享语义，共享语义之间的一个连接点就是常识。

VCR 任务被分解成两个多项选择子任务：答案预测任务（Q→A）和原因预测任务（QA→R）。在人的知识中知道答案，再通过答案进行学习原因，此过程和人的认知一样。

4. 推理+程序漏洞

使用无监督方法标注文本漏洞描述中的三种重要的短语级别的漏洞概念。人描述文本漏洞的句子通常有特定领域的名词和概念，所以在做第三方评测的时候，会生成测试报告。训练一个特定领域的，面向安全漏洞领域的模型，需要大量人工标注。

相同类型的漏洞概念，通常在句法解析树中，共享相似的句法路径，无论它们的句子结构和短语表达是否相同。

区别于传统的词嵌入方法，研究使用绝对路径和相对路径两种句法路径来表示短语概念，图上是给出的一个示例。

从数据集构建短语句法路径，再使用自动编码器无监督的学习路径的表示，得到句子的概念集合，聚类算法对短语概念进行聚类，获得了三种短语概念的集合。

最后使用重构损失进行度量模型的绝对路径和相对路径质量。

05 总结

基于路径推理的方法能够无监督的学习概念的表示，无监督学习方法显著降低了人工标注的代价，无监督学习标注得到的数据能够用于下游的机器学习相关任务。未来还有很多工作要去做，比如引入更多的漏洞概念类型，扩展工作以用于软件工程和网络安全领域。

符号主义和连接主义在概念层次和宏观层次是并不冲突的，而且是互补的，未来可以在推理层面进行两方面的融合。前面的分享不管是单模态、多模态或是跨模态下，都围绕在推理这个层面上进行融合。符号主义是表达能力和推理能力，连接主义是学习能力和推理能力，所以共享的部分就是推理能力。

参考文献

[1]Qin X, Zhang X, Yasin M Q, et al.: A partial materialization-based approach to scalable query answering in OWL 2 DL. In Proceedings of International conference on database systems for advanced applications, pp.171-187. Springer (2020).

[2]Huang S, Wang Y, Zhao T, et al.: A Learning-based Method for Computing Shorted Path Distance on Road Networks. In Proceedings of 2021 IEEE 37th International Conference on Data Engineering(ICDE), pp.360-371. IEEE (2021).

[3]Omran P G, Wang K, Wang Z.: An Embedding-Based Approach to Rule Learning in Knowledge Graphs. IEEE Trans. Knowl. Data Eng. 33(4): 1348-1359 (2021).

[4]Omran P G , Wang K , Wang Z.: Scalable Rule Learning via Learning Representation. In Proceedings of 27th International Joint Conference on Artificial Intelligence, pp.2149-2155. ACM (2018).

[5]Qin L, Xiao Y X, et al.: Dynamically fused graph network for multi-hop reasoning. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp.6140-6150 (2019).

[6]Liu Y, Wang R, Shan S, et al.: Structure inference net: Object detection using scene-level context and instance-level relationships. In Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.6985-6994 (2018).

[7]Veitch V, Sridhar D, and Blei D M.: Adapting text embeddings for causal inference. In proceedings of the 36th Conference on Uncertainty in Artificial Intelligence, pp.919-928 (2020).

[8]Wu T, Ribeiro M T, Heer J, et al.: Polyjuice: Automated, general-purpose counterfactual generation. In Proceedings of the Association for Computational Linguistics, pp.1923-1929 (2021).

[9]Feder A, Oved N, Shalit U, Reichart R.: Causalm: Causal model explanation through counterfactual language model. Comput, Linguistics, 47(2): 333-386 (2021).

[10]Song H , Wang H, Wang W N, et al.: Profile Consistency Identification for Open-domain Dialogue Agents. In proceedings of Conference on Empirical Methods in Natural Language Processing, pp.1-16 (2020).

[11]Song H, Wang Y, Zhang K et al.: BOB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data. In proceedings of the Association for Computational Linguistics, pp.1-12 (2021).

[12]Sofonias Yitagesu, Zhenchang Xing, Xiaowang Zhang et al.: Unsupervised Labeling and Extraction of Phrase-based Concepts in Vulnerability Descriptions. ASE 2021: 943-954.

｜分享嘉宾｜

张小旺

天津大学教授

张小旺，天津大学智能与计算学部教授，博导，北京大学理学博士，比利时哈瑟尔特大学博士后，天津市海外高层次人才，北洋青年学者，天津市认知计算与应用重点实验室副主任。研究方向包括知识图谱，自然语言处理，数据库系统等。主持国家级纵向和横向课题各5项。目前担任知识图谱领域国际著名期刊互联网语义期刊（JoWS）编委和国际数据智能期刊（DI）副主编。近年来，在AAAI，IJCAI，ACL，ASE，TOSEM，JAIR，ICDT，ISWC，EMNLP，JoWS，《计算机学报》，《软件学报》等国内外学术期刊会议发表论文多篇，获得天津市科技进步一等奖，ACM天津新星奖。