Fork me on GitHub

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘

以下文章来源于 https://zhuanlan.zhihu.com/p/607474611

导读 大家好,我是腾讯 AI Lab 的蒋海云,今天给大家介绍一下我们在智能写作助手的工作。今天的报告分为四个部分,前两部分介绍 AI 智能写作助手的相关系统;后两部分介绍 AI 写作中比较重要的文本改写功能涉及到的两个关键技术。

全文目录如下:

  1. 文本理解系统 TexSmart 介绍

  2. 智能写作助手 Effidit(文涌)系统介绍

  3. 多级可控的无监督文本改写方法

  4. 文本改写评测思考和一种新的指标


分享嘉宾|蒋海云博士 腾讯 AI Lab 高级研究员

编辑整理|田育珍 猿辅导

出品社区|DataFun


01/文本理解系统 TexSmart 介绍


先介绍一下文本写作助手用到的一些理解的模块,即:TexSmart。



文本理解系统在智能写作中,提供了基础的语言理解的能力,像:文本图谱、文本理解和文本匹配。文本图类似知识图谱,可以对常见的文本关系进行查询。

在理解系统之上,是今天重点介绍的智能写作助手。目前助手包含:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。


1. TexSmart 是什么



TexSmart 是自然语言理解的工具与服务,可以对中文和英文两种语言的文本进行词法、句法和语义分析。功能分为三部分:

  • **文本理解:**分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义角色标注、文本分类和关键词提取;
  • **文本匹配:**语义相似度匹配,衡量句子的相似度;
  • **文本图谱:**常用文本关系的知识查询。

2. TexSmart Demo



分词和标注就是给一个句子,对句子进行分词并标注词性。TexSmart 提供了不同粒度的命名实体识别。粗粒度 就是我们常见的十几种类别,如:时间、地点等。细粒度包含 1000 多种类别。



文本分类大概有十几种。句法分析大家也都比较熟,这里就不做赘述。



系统还支持语义角色标注文本匹配



文本图谱包含五类,比如:相似词、上位词、下位词、同义词和反义词。同义词 是语义完全一致的,比如:刘德华的同义词是华仔。相似词 是指同类别下其它比较类似的词,比如:刘德华的相似词是周润发、周星驰。上位词 是知识图谱常用到的实体类型(type),比如:刘德华的类型是演员、艺人。右边是另一个维度可视化的结果。


3. TexSmart 的特色



接下来介绍一下,TexSmart 和传统的文本理解相比的几大特色。



首先,TexSmart 支持上千种细粒度 NER(细粒度命名实体识别),且各个类型之间具有层级结构,最深可达到七层。

其次,TexSmart 增强的语音理解功能,即:上下文相关的语义联想。比如,NER 识别出刘德华后,可以推荐刘德华相似的词,这个和文本理解中有部分是类似的。

最后,TexSmart 是为了多维度应用需求而设计。在设计时,使用了多种算法,兼容了学术界和工业界的不同需求:对运行速度要求比较高的用户,我们设计了比较浅层的像模型,比如:CRF、DNN;对精度要求比较高的用户,我们设计了基于 BERT 相关的模型。



TexSmart 支持 1000 多种类别。



TexSmart 支持语义联想,对句子中给定的实体,预测与其相关联的实体集合。



TexSmart 兼顾了学术界和工业界多种不同的需求。



这里介绍一下 TexSmart 的设计理念和实现方法:

  • 针对不同的人群,设计了不同的模型和算法 ,从精度和速度两个维度出发,设计了精度高和速度快的模型。
  • 利用无标注数据训练模型,这会使模型不在特定数据拟合,可以覆盖更多的数据,模型的鲁棒性更好。
  • 通过增量式收集无标注数据,周期性更新模型。

--

02/智能写作助手 Effidit 介绍


接下来介绍一下智能写作助手,英文叫 Effidit,中文叫文涌。

Effidit 主要功能包括:文本纠错、文本补全、文本润色、例句推荐、云输入法和文涌学术版。



  • 文本纠错包含:删除类、插入类和替换类纠错功能。
  • 文本补全包含:短语补全,根据前缀生成短语;句子补全-检索;句子补全-生成,根据前缀句子续写。
  • 文本润色包含:短语润色,将词替换为更高级的词;句子改写;句子扩写,将短句添加修饰成分使句子的表达更丰满。
  • 例句推荐包括:关键词句子检索,关键词句子生成。
  • 云输入法包括:中英文输入法。
  • 文涌学术版包括:跨语言例句检索、语义增强的论文检索。

1. 文本纠错

文本纠错包含删除类、插入类和替换类纠错功能。

  • 删除类:文本多了一个字,需要进行删除;
  • 插入类:文本中少了一个字,需要添加文字;
  • 替换类:文本中有错别字,需要进行替换。

左下的图 针对这三类分别举了三个例子。第一个是多了一个"要";第二个是少了一个"到";第三个是错别字"旧"改为"就"。右侧是我们的评测集,我们内部做了一个比较客观的评测,可以看到 Effidit 在同类产品中还是占很大优势的。



英文纠错是我们的特色功能,纠错是可解释的。比如,左下图 需要纠错,在右下图除了进行了纠错,还补充了纠错的原因。



2. 文本补全



英文本补全有两种:一种是后缀补全 ,一种是结合前后语境的句中补全。这里举几个例子。

  • 用户输入"那个大汉被打得",给用户推荐"落花流水"和"措手不及";
  • 用户输入"成都市区",帮用户补全对应区,如:"武侯"、"高新";
  • 用户输入"堡基地建设",帮用户补全"德特里克"、"美国德特里克"。


英文补全其实就是句子续写。比如:用户输入"那个大汉被打得",上面是检索得到的结果,下面是句子生成的结果。可以看到,生成的效果还是不错的。



在句子补全的基础上,系统还支持风格化 。目前定义了科幻、军事、武侠、官场四种风格。用户可以在网页中选择风格,系统会根据前缀生成对应风格的续写。


3. 文本润色



文本润色的短语润色是在用户选中句子中的词后,智能推荐更加贴合语境的相似候选词,使整个句子表达更加精准生动。



句子改写是不改变句子原始语义的情况下,使句子更好。我们还引入句子扩写,即不改变句子语义的情况下,对句子舔砖加瓦,使句子表达更加丰满。


4. 超级网典



我们还提供了超级网典功能,可以满足用户对某种特定的词汇查询。用户输入春天,我们可以给用户推荐描述春天的词汇,如:生机勃勃、繁花似锦。针对英文场景,系统还提供了相关词、近义词和相似词。此外,系统还支持双语的词典,用户输入"优点和缺点",可以看到英文条件下的相关词、近义词和相似词。



除了词级别的推荐,还支持句子级别的推荐。用户输入关键词,检索现有文章中的例子作为例句;同时,还可以将关键词按顺序智能补全,作为完整句子。


5. 云输入法



云输入法可以为用户提供更加丰富及精准的候选结果,更高效的输入效率,同时还提供了英文输入法。


6. 文涌学术版



学术版的文涌对写论文很有帮助。有些英文不太好的用户,输入"重要的进展",就可以看到对应的英文表达,以及论文的出处。同时,还支持论文检索。比如,输入一个算法的术语,可以查询到对应的论文。

--

03/多级可控的无监督文本改写方法


智能写作助手是多模块组成的很复杂的系统,里面涉及到的关键技术非常多。由于时间关系,主要介绍一下文本改写模块的部分关键技术。



文本改写就是输入一段话,输出和输入时语义相关的内容,但表达会有所不同。人类改写过程可以分为不同的层次:

  • 全局语义:通读一遍,理解文本的语义信息;
  • 局部词汇:大脑会决定某些词汇是不能做修改的,比如:人名、地名等关键信息。比如,某个内容是说刘德华的,刘德华就不能变成张学友;
  • 整体风格,在改写的时候,如果有可以参考的范例,可以从中得到一些文字编辑或句式重构的启发。

我们的工作也将从这三个层级展开。



在无监督场景下,MCPG 可以在三个层级(全局语义、局部词汇和整体风格)上进行控制,生成更加可控的复述结果。

左边的 a 图考虑不给示意样本,只考虑全局语义和局部词汇。比如,输入一句话,通过语义解码器可以获得句子的向量表示。并通过特定的方法,把对应的不可修改的关键词显示标记出来。可以设计一个输入是 Embedding 以及一些关键词的解码器。

如果直接把解码得到的内容送入生成器 Generate,生成的内容和原始的句子是一样的。我们发现,对 Semantic 的向量进行 dropout 是一个很有效的方式。通过 dropout,可以使丰富性变强。

我们会发现,p 和输入的内容很像,p 改写的句子是 q。告诉模型 p 和 q 的信息,在训练的时候做到生成的句子和 q 很像。



全局语义控制 可以通过 dropout 扰动的语义编码向量控制全局语音以及输出的多样性。如果 dropout 是 0.05 或 0.01 时,生成的句子和原始句子很像,几乎没什么变化;当 dropout 很大时,原始向量扰动比较大,但对语义的消耗也会比较大。

局部词汇控制 是通过关键词控制事实性变量在复述文本中不发生变化。其中,关键词通过 NER 工具获得。



整体风格的控制,主要是通过转化向量控制输出的。比如,给定一个输入,我们会告诉模型,和输入相近句子的情况,希望模型也可以类似改写。



上图是模型的结果。



可以看到 dropout 对模型的影响还是蛮大的:当 dropout 很大时,生成的句子和原始句子之间的相似度会直线下降。



平行语料是指基于输入句子后,从多大的空间检索模型输入语料。**可以看到:**语料空间大,和输入语料相同的概率就越大;如果候选集很小,则检索出来的结果也会更不接近。



上图是使用随机关键词对 MCPG-basic 模型性能的影响。

--

04/文本改写评测思考和一种新的指标


接下来介绍一下文本评测的思考,以及改写评测新指标。



目前大家做改写,主要是从模型的角度出发,通过现有经典的指标,如:BLEU、Metric衡量。很少有人思考使用这些指标衡量文本改写的合理性。

这里把文本改写的两个维度列出来:

  • 语义相似度,改写需要保留原句的语义;
  • 多样性,改写需要有明显的多样性(词级别、语法级别)。


刚才提到,现有研究工作中,绝大部分的工作都是致力于提出更加大的模型。这些模型随着时间推移,效果也越来越好。



以往观点把文本改写(Paraphrase)当做单语机器翻译,所以评估的指标都是借用机器翻译的指标,如:Rough、BLEU。但实际上,改写任务和机器翻译任务有着本质区别。文本改写内容的多样性是至关重要的,而在机器翻译任务中不是必须的。机器翻译主要保证翻译的内容和原本的内容的相似度,但不关注内容的多样性。

如何去改善文本改写的评估方法呢?



经过一系列的实验,我们得出了两条反直觉的发现:

  • **绝大多数以往常用的指标在文本改写中表现欠佳。**我们将评测的结果和人工评价的标准进行比对,当差异比较大时,就说明常用指标对于文本改写不适用。
  • 模型在处理时会有 reference。 reference-free 是直接通过输入的句子去判断生成的句子的质量;reference-based是通过 reference 判断生成句子的质量。我们发现,reference-free 的指标好于 reference-based 指标。

根据这两个发现,我们探究出其背后的原因:

  • Reference-free 和 reference-based 的指标取决于数据集中 I 类和 II 类(接下来提及)数据的比例。
  • 以往常用的指标忽略了多样性的测量。


接下来介绍一下实验设置。假设输入的句子是 X 和对应的 reference R,我们的目标是评测候选输入 C 的质量。对于每个指标 M,可以有 reference-based 和 reference-free。

在 reference-based 中,候选集输入 C 的质量是和 reference 比较的。在 reference-free 中,候选集输入 C 的质量是和 X 进行比较的。测评使用了 Twitter-ParaBQ-Para 两个数据集。通过 Metric 分数人类标注分数的相关系数进行评价



红色的数据表示,大部分 reference-free 的效果比 reference-based 好。另外,机器评分和人工评分的一致性比较低。这个图就得到我们刚说到结论:

  • **大多数常用指标和人类评估并不一致。**在 Twitter-Para 上,BLUE-4 甚至显示出与人类注释的负相关关系。
  • 另外,对于大多数指标,其 reference-free 的变体比 reference-based 更符合人类评估。


我们通过数据观察发现一个现象,**当候选 C 和 R 距离很远,reference-free 更好;当 C 和 R 很近,此时 reference-based 更好。**我们也因此将数据分为 I 类和 II 类。



我们做了一个实验,数据表明:对于候选 C 来说,如果 C 和 R 的距离明显大于 C 和输入 X 的距离,那么 reference-based 的度量会优于 reference-free 的度量。



这个是实验的结果。



现有文本改写的质量主要考虑语义相似度和多样性。以往指标主要考虑相似度,很少考虑多样性。



实验结果表明,所有指标的相关分数都是负的。这说明,对文本改写的评价指标在描述多样性上表现较差。但多样性对文本改写是非常重要的。



因此,我们提出了新的指标 ParaScore。整个得分分为相似度 Sim多样性 DS两部分。



这里还有个变体版本,当 C 跟 X 比较近时退化为 reference-free 版本;当 C 跟 R 比较接近时,则为 reference-based 版本。同时,引入 DS,来提升模型多样性。



在两个数据集上,Pearson 和 Spearman 系数的一致性就好了很多。但这些评测指标还是有很大研究空间的。



消融实验结果表明,ParaScore 的设计对 ParaScore 的有效性至关重要。


这个是相关系统的链接,上面是系统的微信群,下面是我的微信,欢迎大家多多交流。

今天的分享就到这里,谢谢大家。


分享嘉宾

蒋海云 博士|腾讯AI Lab 高级研究员

蒋海云, 2020 年博士毕业于复旦大学数据科学方向,主要研究包括知识图谱、文本理解,文本生成等,在 ACL、EMNLP、IJCAI、AAAI、ICDE 等会议发表论文27篇。


《数据智能知识地图》下载

上下滑动⬆️⬇️,查看《数据智能知识地图》预训练模块,完整版请关注公众号"大话数智"下载


DataFun新媒体矩阵


关于DataFun

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。


本文地址:https://www.6aiq.com/article/1676809138032
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出