腾讯智能写作助手“文涌”（Effidit）关键技术揭秘

导读大家好，我是腾讯 AI Lab 的蒋海云，今天给大家介绍一下我们在智能写作助手的工作。今天的报告分为四个部分，前两部分介绍 AI 智能写作助手的相关系统；后两部分介绍 AI 写作中比较重要的文本改写功能涉及到的两个关键技术。

全文目录如下：

文本理解系统 TexSmart 介绍
智能写作助手 Effidit（文涌）系统介绍
多级可控的无监督文本改写方法
文本改写评测思考和一种新的指标

分享嘉宾｜蒋海云博士腾讯 AI Lab 高级研究员

编辑整理｜田育珍猿辅导

出品社区｜DataFun

01/文本理解系统 TexSmart 介绍

先介绍一下文本写作助手用到的一些理解的模块，即：TexSmart。

文本理解系统在智能写作中，提供了基础的语言理解的能力，像：文本图谱、文本理解和文本匹配。文本图类似知识图谱，可以对常见的文本关系进行查询。

在理解系统之上，是今天重点介绍的智能写作助手。目前助手包含：文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。

1. TexSmart 是什么

TexSmart 是自然语言理解的工具与服务，可以对中文和英文两种语言的文本进行词法、句法和语义分析。功能分为三部分：

文本理解： 分词、词性标注、命名实体识别（NER）、语义联想、句法分析、语义角色标注、文本分类和关键词提取；
文本匹配： 语义相似度匹配，衡量句子的相似度；
文本图谱： 常用文本关系的知识查询。

2. TexSmart Demo

分词和标注就是给一个句子，对句子进行分词并标注词性。TexSmart 提供了不同粒度的命名实体识别。粗粒度 就是我们常见的十几种类别，如：时间、地点等。细粒度包含 1000 多种类别。

文本分类大概有十几种。句法分析大家也都比较熟，这里就不做赘述。

系统还支持语义角色标注 和文本匹配。

文本图谱包含五类，比如：相似词、上位词、下位词、同义词和反义词。同义词 是语义完全一致的，比如：刘德华的同义词是华仔。相似词 是指同类别下其它比较类似的词，比如：刘德华的相似词是周润发、周星驰。上位词 是知识图谱常用到的实体类型（type），比如：刘德华的类型是演员、艺人。右边是另一个维度可视化的结果。

3. TexSmart 的特色

接下来介绍一下，TexSmart 和传统的文本理解相比的几大特色。

首先，TexSmart 支持上千种细粒度 NER（细粒度命名实体识别），且各个类型之间具有层级结构，最深可达到七层。

其次，TexSmart 增强的语音理解功能，即：上下文相关的语义联想。比如，NER 识别出刘德华后，可以推荐刘德华相似的词，这个和文本理解中有部分是类似的。

最后，TexSmart 是为了多维度应用需求而设计。在设计时，使用了多种算法，兼容了学术界和工业界的不同需求：对运行速度要求比较高的用户，我们设计了比较浅层的像模型，比如：CRF、DNN；对精度要求比较高的用户，我们设计了基于 BERT 相关的模型。

TexSmart 支持 1000 多种类别。

TexSmart 支持语义联想，对句子中给定的实体，预测与其相关联的实体集合。

TexSmart 兼顾了学术界和工业界多种不同的需求。

这里介绍一下 TexSmart 的设计理念和实现方法：

针对不同的人群，设计了不同的模型和算法 ，从精度和速度两个维度出发，设计了精度高和速度快的模型。
利用无标注数据训练模型，这会使模型不在特定数据拟合，可以覆盖更多的数据，模型的鲁棒性更好。
通过增量式收集无标注数据，周期性更新模型。

02/智能写作助手 Effidit 介绍

接下来介绍一下智能写作助手，英文叫 Effidit，中文叫文涌。

Effidit 主要功能包括：文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。

文本纠错包含：删除类、插入类和替换类纠错功能。
文本补全包含：短语补全，根据前缀生成短语；句子补全-检索；句子补全-生成，根据前缀句子续写。
文本润色包含：短语润色，将词替换为更高级的词；句子改写；句子扩写，将短句添加修饰成分使句子的表达更丰满。
例句推荐包括：关键词句子检索，关键词句子生成。
云输入法包括：中英文输入法。
文涌学术版包括：跨语言例句检索、语义增强的论文检索。

1. 文本纠错

文本纠错包含删除类、插入类和替换类纠错功能。

删除类：文本多了一个字，需要进行删除；
插入类：文本中少了一个字，需要添加文字；
替换类：文本中有错别字，需要进行替换。

左下的图 针对这三类分别举了三个例子。第一个是多了一个"要"；第二个是少了一个"到"；第三个是错别字"旧"改为"就"。右侧是我们的评测集，我们内部做了一个比较客观的评测，可以看到 Effidit 在同类产品中还是占很大优势的。

英文纠错是我们的特色功能，纠错是可解释的。比如，左下图 需要纠错，在右下图除了进行了纠错，还补充了纠错的原因。

2. 文本补全

英文本补全有两种：一种是后缀补全 ，一种是结合前后语境的句中补全。这里举几个例子。

用户输入"那个大汉被打得"，给用户推荐"落花流水"和"措手不及"；
用户输入"成都市区"，帮用户补全对应区，如："武侯"、"高新"；
用户输入"堡基地建设"，帮用户补全"德特里克"、"美国德特里克"。

英文补全其实就是句子续写。比如：用户输入"那个大汉被打得"，上面是检索得到的结果，下面是句子生成的结果。可以看到，生成的效果还是不错的。

在句子补全的基础上，系统还支持风格化 。目前定义了科幻、军事、武侠、官场四种风格。用户可以在网页中选择风格，系统会根据前缀生成对应风格的续写。

3. 文本润色

文本润色的短语润色是在用户选中句子中的词后，智能推荐更加贴合语境的相似候选词，使整个句子表达更加精准生动。

句子改写是不改变句子原始语义的情况下，使句子更好。我们还引入句子扩写，即不改变句子语义的情况下，对句子舔砖加瓦，使句子表达更加丰满。

4. 超级网典

我们还提供了超级网典功能，可以满足用户对某种特定的词汇查询。用户输入春天，我们可以给用户推荐描述春天的词汇，如：生机勃勃、繁花似锦。针对英文场景，系统还提供了相关词、近义词和相似词。此外，系统还支持双语的词典，用户输入"优点和缺点"，可以看到英文条件下的相关词、近义词和相似词。

除了词级别的推荐，还支持句子级别的推荐。用户输入关键词，检索现有文章中的例子作为例句；同时，还可以将关键词按顺序智能补全，作为完整句子。

5. 云输入法

云输入法可以为用户提供更加丰富及精准的候选结果，更高效的输入效率，同时还提供了英文输入法。

6. 文涌学术版

学术版的文涌对写论文很有帮助。有些英文不太好的用户，输入"重要的进展"，就可以看到对应的英文表达，以及论文的出处。同时，还支持论文检索。比如，输入一个算法的术语，可以查询到对应的论文。

03/多级可控的无监督文本改写方法

智能写作助手是多模块组成的很复杂的系统，里面涉及到的关键技术非常多。由于时间关系，主要介绍一下文本改写模块的部分关键技术。

文本改写就是输入一段话，输出和输入时语义相关的内容，但表达会有所不同。人类改写过程可以分为不同的层次：

全局语义：通读一遍，理解文本的语义信息；
局部词汇：大脑会决定某些词汇是不能做修改的，比如：人名、地名等关键信息。比如，某个内容是说刘德华的，刘德华就不能变成张学友；
整体风格，在改写的时候，如果有可以参考的范例，可以从中得到一些文字编辑或句式重构的启发。

我们的工作也将从这三个层级展开。

在无监督场景下，MCPG 可以在三个层级（全局语义、局部词汇和整体风格）上进行控制，生成更加可控的复述结果。

左边的 a 图考虑不给示意样本，只考虑全局语义和局部词汇。比如，输入一句话，通过语义解码器可以获得句子的向量表示。并通过特定的方法，把对应的不可修改的关键词显示标记出来。可以设计一个输入是 Embedding 以及一些关键词的解码器。

如果直接把解码得到的内容送入生成器 Generate，生成的内容和原始的句子是一样的。我们发现，对 Semantic 的向量进行 dropout 是一个很有效的方式。通过 dropout，可以使丰富性变强。

我们会发现，p 和输入的内容很像，p 改写的句子是 q。告诉模型 p 和 q 的信息，在训练的时候做到生成的句子和 q 很像。

全局语义控制 可以通过 dropout 扰动的语义编码向量控制全局语音以及输出的多样性。如果 dropout 是 0.05 或 0.01 时，生成的句子和原始句子很像，几乎没什么变化；当 dropout 很大时，原始向量扰动比较大，但对语义的消耗也会比较大。

局部词汇控制 是通过关键词控制事实性变量在复述文本中不发生变化。其中，关键词通过 NER 工具获得。

整体风格的控制，主要是通过转化向量控制输出的。比如，给定一个输入，我们会告诉模型，和输入相近句子的情况，希望模型也可以类似改写。

上图是模型的结果。

可以看到 dropout 对模型的影响还是蛮大的：当 dropout 很大时，生成的句子和原始句子之间的相似度会直线下降。

平行语料是指基于输入句子后，从多大的空间检索模型输入语料。可以看到： 语料空间大，和输入语料相同的概率就越大；如果候选集很小，则检索出来的结果也会更不接近。

上图是使用随机关键词对 MCPG-basic 模型性能的影响。

04/文本改写评测思考和一种新的指标

接下来介绍一下文本评测的思考，以及改写评测新指标。

目前大家做改写，主要是从模型的角度出发，通过现有经典的指标，如：BLEU、Metric衡量。很少有人思考使用这些指标衡量文本改写的合理性。

这里把文本改写的两个维度列出来：

语义相似度，改写需要保留原句的语义；
多样性，改写需要有明显的多样性（词级别、语法级别）。

刚才提到，现有研究工作中，绝大部分的工作都是致力于提出更加大的模型。这些模型随着时间推移，效果也越来越好。

以往观点把文本改写（Paraphrase）当做单语机器翻译，所以评估的指标都是借用机器翻译的指标，如：Rough、BLEU。但实际上，改写任务和机器翻译任务有着本质区别。文本改写内容的多样性是至关重要的，而在机器翻译任务中不是必须的。机器翻译主要保证翻译的内容和原本的内容的相似度，但不关注内容的多样性。

如何去改善文本改写的评估方法呢？

经过一系列的实验，我们得出了两条反直觉的发现：

绝大多数以往常用的指标在文本改写中表现欠佳。 我们将评测的结果和人工评价的标准进行比对，当差异比较大时，就说明常用指标对于文本改写不适用。
模型在处理时会有 reference。 reference-free 是直接通过输入的句子去判断生成的句子的质量；reference-based是通过 reference 判断生成句子的质量。我们发现，reference-free 的指标好于 reference-based 指标。

根据这两个发现，我们探究出其背后的原因：

Reference-free 和 reference-based 的指标取决于数据集中 I 类和 II 类（接下来提及）数据的比例。
以往常用的指标忽略了多样性的测量。

接下来介绍一下实验设置。假设输入的句子是 X 和对应的 reference R，我们的目标是评测候选输入 C 的质量。对于每个指标 M，可以有 reference-based 和 reference-free。

在 reference-based 中，候选集输入 C 的质量是和 reference 比较的。在 reference-free 中，候选集输入 C 的质量是和 X 进行比较的。测评使用了 Twitter-Para 和 BQ-Para 两个数据集。通过 Metric 分数 和人类标注分数的相关系数进行评价。