我们和腾讯 T16 级专家聊了聊:在 AI 领域深耕的那些年

给国家围棋队陪练的 AI“绝艺”、精通王者荣耀全英雄的策略协作型 AI“绝悟”、能歌善舞的 AI 虚拟人艾灵、在滨海大厦种番茄的 AI 智慧农业方案 iGrow、以及与钟南山院士团队合作预测新冠肺炎走向的 AI,这些都是腾讯 AI Lab 耳熟能详的一些工作。同样为人熟知的是实验室副主任、著名语音识别和深度学习专家、十六级科学家俞栋。

本文作者&来源:《腾讯》内刊 俞栋 腾讯技术

看着眼前 AI 处处开花的繁荣景象,大家可能很难想象,AI 在上世纪 80-90 年代火过一波之后,曾经有十多年的时间不被看好。

用俞栋老师的话说就是,过去几年 AI 很热,AI 相关顶会的投稿和参会人数都屡创新高,甚至有段时间发论文,有种夸张的说法是不提深度学习会被毙稿。

但在之前很长的一段时间里,AI 处于蛰伏的冬天,俞栋那时候也根本不知道何时才能“春暖花开”。

如今说起这些似乎云淡风轻,但往事并不如烟。多年的坚持与默默耕耘,唯有亲历者才知其中甘苦。从热到冷、再到大热,俞栋是 AI 发展峰谷的经历者,更是近十年来,AI 大繁荣的推动者之一。

而说到俞栋与 AI 的缘起,虽然大学选择专业时是一个重要结点,但更早则要追溯到小时候,一本名叫《奇异的机器狗》的儿童科幻书。

《腾讯》内刊非常荣幸连线采访到俞栋老师,听他来为我们讲述与 AI 的故事。

图片

问:作为一名 AI 领域的大咖,您是什么时候开始进入到这个领域、走上 AI 研究这条道路的?

俞栋:这可能是一个渐进的过程。我上小学的时候看过很多科幻书,其中有本叫《奇异的机器狗》的书非常吸引我,以至于我现在还记得里面的主要内容。

那本书介绍一个能够和人对话的机器狗,能识别和它说话的人,还能定位,记住路线,帮助小孩解决问题。所以当保送到浙大读本科时,我了解到电机系的工业电气自动化专业有一个机器人实验室,就选择了那里。

但是 1990 年,在我大三的时候,上一波的神经网络(深度学习前身)热潮进入中国。

在了解了一些前沿方向后,我觉得控制机器人可能还不如让机器能听懂人话更有意思,而神经网络技术很可能可以解决这个问题,所以读研的时候就决定去中科院自动化所黄泰翼老师那里,从此走上了语音识别研究的道路。

问:我们知道很多科学研究领域都是枯燥的,甚至是孤独的,特别是在所从事的领域看不到很明朗前景的时候。您在 AI 研究领域深耕了三十多年,但 AI 真正火起来是近五六年的事,在这之前,您有没有考虑过转行?

俞栋:AI 在上世纪 80 年代末、90 年代初有过一波热潮,那次热潮是专家系统和神经网络掀起的。

但是我毕业之后 AI 尤其我所从事的子领域语音识别慢慢冷掉了,冷了至少有十多年,主要体现在领域没有大的进展,得不到充足的经费支持,许多研究人员因而转行做别的方向。

我能清晰地感受到领域的低潮。因为当时其他几个组每年都有 visible 的进展,但我们语音识别这边进展不大,废了九牛二虎之力识别性能可能只有很少的提升。

有些同事觉得至少在可预知的未来这个领域前景不好,就转到了其他领域。我因为对语音识别有比较浓厚的兴趣,所以继续在这个领域耕耘。

转行的同事有做搜索引擎的,有做广告推荐的,有做垃圾邮件过滤的,这些同事基础好,又很努力,在新的领域做得都很成功。

所以理性地讲,坚守在原有领域不见得是最优的选择,但是坚守确实可以带来厚积薄发的优势。

图片

问:这个领域一冷就是十多年,是不是挺难熬的?



俞栋:是的,主要是不知道什么时候会春暖花开。

问:在这么长时间的冷滞阶段中,身边很多同事、同行都离场了,您能坚持下来,主要是靠什么样的力量?

俞栋:我觉得最主要的原因还是对攻克这一问题的兴趣和对研究工作的热爱。事实上,我们一直在尝试不同的办法试图在这个有挑战性的问题上形成突破。

另外一个原因是我太太的支持,转到一个热门领域或产品部门工作升职加薪空间比较大,但是我太太觉得我在工作中快乐更重要。

幸运的是,我们最终守得云开见月明。经过多方尝试和长期积累,我们抓住了机会,在 2010 年 8 月取得了技术上巨大的突破,带来了语音识别技术范式的转变。这次突破加上 Apple 的 siri 在应用端的助攻,使整个语音识别领域重新变热。

近些年,又由于深度学习在视觉、自然语言处理、和游戏(比如围棋)等多个领域带来的突破,造成了整个 AI 的复兴。

图片

问:您在这个过程中觉得遇到最大的困难是什么?是业界不理解、毙稿这样的困难,还是其它的一些困难?

俞栋:做研究,有个阶段就是“山重水复疑无路”。很多时候你尝试了能想到的各种方法都没有成功,这段时候是蛮熬人的,你会怀疑这个东西是不是只能做到这个程度了,没有更好的办法了。

但是你“衣带渐宽终不悔,为伊消得人憔悴”,继续思考和尝试。比较幸运的是,我们最终到达了“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”的境界。

我觉得我们最终能取得突破首先归功于我们周边有很多实力强劲而同时对技术创新又有很高热情的同道中人。

比如和我合作非常紧密的邓力博士和我当时的领导 Alex Acero 博士、以及 Dan Povey 博士(被称为 Kaldi 之父)、Geoff Zweig 博士、Jasha Droppo 博士、和 Mike Seltzer 博士。

同时我们跟业界最领先的 Lab 和高校有比较好的合作和信息互通,使我们能更早地了解相关领域学术上的进展。

突破首先在我们这里产生还有一个原因就是我们在这个领域有很深的积累,有很强的直觉和敏感度,我们能够比别人更早地意识到某项技术的潜在价值。

其实,我们的突破在当时并没有被立刻认可,这里有很多原因。一个原因是许多在小数据集上有效的算法在大数据集上不见得有效。

这样的事之前发生过多次,所以一开始许多研究人员怀疑新方法在更大数据集或更难的任务上的效果。幸运的是 MSRA 语音组的同事 Frank Seide 和我们合作做了很多后续工作,这些后续工作最后说服了大家。

另外一个原因是哲学和美学层面的。即使在后续工作完成之后,还是有很多资深的研究人员和教授对新方法能走多远有很深的怀疑。

原因恰恰是他们经历过上一轮的 AI 热,对神经网络的缺陷有深刻的了解(这些缺陷最近学术界有很多的讨论),认为理论基础薄弱、黑盒操作的模型不够优美。

所以,在开始的一段时间里,迅速 follow 我们的工作并做出成果的主要是相对年轻的研究人员,大多在 40 岁左右或更年轻。

图片

问:科技是有两面性的,AI 在给人类社会带来很大贡献的同时,它也会有一些作恶的可能,我们在用 AI 技术促进人类进步、做向善的时候,有没有对 AI 有可能产生作恶的场景做一些防御呢?

俞栋:目前的 AI 技术还远到不了自己作恶的地步,作恶的还是人。比如恐怖份子可能利用 AI 技术控制无人机,并利用人脸和物体识别技术做到武器对目标的精准打击,对社会安全会造成很大风险。

在防范 AI 被滥用方面 AI Lab 也做了一些工作,比如我们开发了一些技术来防范骗子通过语音合成或图像合成技术欺骗认证系统。但是防止 AI 技术被人用来作恶需要从法律、技术等多个层面来实现。

如今,用“春暖花开”来形容 AI 的研究和应用已然不够,也许用“繁花似锦”都不为过。虽然我们不知道在前方的路上还会遇到什么,但我们相信,带着这份无欲则刚的定力,俞栋老师会带着鹅厂的 AI Lab 走得更远,人类社会也会因为 AI 而更加美好。


本文地址:https://www.6aiq.com/article/1618954887732
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出