AIQ | 港中文林达华教授:迈出第一步,《人工智能基础(高中版)》是怎样炼成的



转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com

AIQ 机器学习大数据 知乎专栏 点击关注

本文转载自机器学习之心公众号

4 月底,由华东师范大学慕课中心、商汤科技、上海知名高中优秀教师共同编著的全球第一本人工智能教材 “《人工智能基础(高中版)》” 正式发布。本文是这部教材的亲历者,编委会执行主编、商汤科技联合创始人、香港中文大学 - 商汤科技联合实验室主任林达华教授讲述的编著历程。

商汤科技联合创始人

香港中文大学 - 商汤科技联合实验室主任

林达华教授

2018 年 4 月 28 日,华东师范大学逸夫楼。

礼堂里座⽆虚席,⼤家翘首以待。随着舞台上的 “书” 被翻开,全球首部专为中学教学编写的⼈工智能教科书终于面世了。对于参与编写的每⼀个⼈来说,这是⼀个值得向至亲分享的时刻。

这部教科书的影响与意义也许需要更长的时间才能看清楚。但是,⼀群年轻⼈在⼀起去完成⼀件前⼈没有做过的事情,这样的经历肯定是值得铭记的。本文记述了这段充满挑战的历程,以及教材编写中的⼏次关键选择。

 

“这是一个开创历史的机会”

 

2017 年 9 月,在⼀次研究会议后,我收到海龙(尚海龙,商汤科技香港公司总经理兼教育事业部总经理)的电话,他提到商务印书馆希望和商汤科技合作编写⼀部中学版⼈工智能教材。不久后,汤老师(汤晓鸥,商汤科技创始人,香港中文大学信息工程系教授)也找到我商量编写教材的事情。这让我感到非常意外,也非常纠结。⼀⽅面,教科书的编写对我⽽⾔是⼀项全新的⼯作,我没有任何经验;另⼀⽅面,实验室的各项研究正在进⼊关键阶段,哪有余⼒开展这样⼀个⼤项目呢。可是,汤老师的⼀句话给了我很⼤的影响:

“人工智能进中学教材,这是历史上第⼀次。

这是⼀个开创历史的机会。”
确实,这样的机会是难以抗拒的。⼀番天人交战后,跃跃欲试的雄⼼战胜了对困难的顾虑,我接下了这个任务。

艰难的开始

2017 年 10 月 10 日,第⼀次教材工作会议在上海举⾏。商务印书馆,华东师范大学慕课中⼼,以及商汤科技的同事在华东师⼤商讨教材的编写计划。主持会议的是华东师范大学慕课中心主任陈玉琨教授。陈教授已经在基础教育耕耘数十载,桃李满天下,在教育界威望极⾼。我刚到会议室,陈教授主动起来到门口欢迎,这份尊重和礼遇让我颇为感动。

可是,接下来的会议并不顺利。

在会前,我准备了⼀份关于教材的大纲——那基本是⼤学机器学习教材的简化版。这份以知识为导向的大纲列出了我认为需要讲授的基础知识,包括分类,回归,无监督学习,和增强学习等⽅向。

这份大纲在会上受到了上海的中学老师们礼貌却又强烈的批评。⼤家认为,这些知识点过于艰深,根据这样的大纲编写的教材是无法在中学课堂讲授的。有部分老师提出,教材可以以科普为主,主要介绍基本概念和展示应用,不涉及背后的数学和算法。对于这种方式,我不能认同——这和参观展览馆有什么区别呢。

这次会议上的争论让我认识到人工智能研究和基础教育之间横亘着⼀道鸿沟。要把人工智能的知识和理念传递给中学的同学们,需要在鸿沟上架设⼀座桥梁。这是⼀个巨大的挑战,也是我们工作的意义所在。

会议开了整整⼀天,从早上 9 点到下午 5 点。经过反复深⼊的沟通,双方在教材设计原则上达成了基本共识:

  • 中学人工智能教学的目的不是把所有同学培养成人工智能专家,而是传递人工智能的基本思想和理念,培养动手能力和创造力,使得同学们在以后进入各行各业能自觉运用人工智能解决问题。

  • 兴趣与知识并重。通过生活中的应用发展同学们对人工智能的兴趣,并由此引入适合中学生接受的基础知识和基本算法。

  • 以实践为导向。在每个章节,以具体的应用为主线,把相关知识贯穿起来。为教材提供配套的实验平台和任务包。

这次会议的另⼀个重要成果是把团队建立起来,并确立了在编写过程中的合作方式。具体来说,就是商汤科技和香港中文大学的团队负责教材专业内容的设计和撰写,由上海六所重点中学老师组成的团队负责从教学的角度提出反馈并对教学语⾔的运用提供指导意见。最后双方合作统稿。

 

从 0 到 1

从上海回来后,我开始拟定教材的大纲。大纲的设计思路源于海龙提出的八个字:“耳聪目明,心灵手巧”。最初的大纲把教材分为七个章节:

一. 总论:人工智能概述

二. 经典图像分类(目明)

三. 深度学习(目明)

四. 音乐风格分类(耳聪)

五. 相册聚类

六. 自然语⾔理解(心灵)

七. 生成模型(手巧)

从机器学习的角度,这个大纲涵盖了三种重要的学习方式:监督学习(第二 - 四章),非监督学习(第五 - 六章),和生成模型(第七章)。

在实验室其他教授的支持下,我在实验室内部组建了编写团队。第⼀章总论由我撰写,其余六章各由⼀位实验室的同学负责。他们根据我发出的每章细则来进行具体的内容编写。汤老师指出,这部教材的编写是开创历史的工作。因此,我们在教材编写之初就订立了⼀条铁律:

坚持原创。

每⼀段话都必须自⼰撰写,

每⼀幅教学示意图都必须自⼰设计。

从 2017 年 10 月中开始,同学们就开始了各自的编写工作,在这个过程中,我们和上海的老师们保持了密切的沟通。2018 年 1 月 15 日,教材的初稿完成。

波澜再起

2018 年 1 月 20 号,由商汤团队和上海老师参与的全体会议再次举行,集体对初稿进行审议。

初稿的完成使大家备受鼓舞。可是,随着会议的进⾏,我们发现有点高兴得太早了。在这次会议上,波澜再起。双⽅争论的焦点落在了第⼆章(经典图像分类)和第三章(深度学习)。这两章是全书的知识基础,它们的成败决定了全书的成败。虽然负责这两章的编委付出了很大的努力以尽可能通俗的方式讲授,可是效果还是不能令人满意。

 

什么是数据?什么是特征?

什么是权重?什么是卷积?

 

参与审稿的老师们在会议上直⾔指出,初稿中对这些最基础的概念没有讲清楚。编委们在日常的研究工作中对这些非常基本的名词可以说是习以为常,可是真要向零基础的同学讲清楚它们的涵义却并不容易。两个多月辛苦得到的是尖锐的批评。今天回想起来,我依旧能感受到编委同学在当时的苦闷和委屈。可是,⼀部高质量的教科书,不经锤炼又如何能出来呢。

在会议上,老师们还指出,第⼆章⼀下子引入了太多基础概念,担心同学们难以接受,希望把众多概念在全书中循序渐进地展开,让学习曲线变得平缓⼀点。要实现这⼀点意味着第⼆章和第三章整个需要推倒重来,重新设计。

会议结束后,我让相关的编委组成攻关小组重新设计编写这两个基础章节,并且把我的⼀个博士后研究员王若晖调进来支援这项任务。在新的设计中,我们调整了章节内容:在第⼆章只讲模式识别的⼊门知识和基本的分类器,使用的应用例子改用可以直观说明的简单属性特征,并把图像处理的知识移到第三章,从而降低了第⼆章的概念密集度。在第三章中把图像滤波的知识和卷积特征提取进行有机融合,使得对卷积的介绍获得更具体的应用背景支撑。此外,大家还⼀起对所有的基本概念以及它们的衔接关系进行梳理,并且在教材中加入大量具体的例子和图表,让读者可以更形象地理解它们。这些工作取得了明显的成效,后来参与审稿的同事和老师都表示新修订的章节更容易读懂了。

第三章的修订过程中,编委们对于如何处理生物神经网络和人工神经网络的关系也进行了深入讨论。传统的神经网络大学教材往往是从生物神经网络说起,然后引入人工神经网络。我们认为这种讲授方式很容易让读者产生 “仿生学” 的联想,这显然是不科学的,也不符合现代主流的设计和研究思路。讨论后,我们决定依照当代研究领域的主流观点,主要从特征学习的角度讲述卷积神经网络的意义,淡化它和生物神经网络的联系,以避免读者形成不恰当的理解。

 

争分夺秒,二度大改

二月初,对初稿的修订完成后,我把第⼆稿发给汤老师重新审阅。汤老师看过后,认为仍然有很大的改进空间,并提出了三个重要的意见:

  • 这⼀稿在图文并茂上仍然不足,需要提高插图的数量和质量。

  • 加入视频理解和 AlphaGo 相关的章节,这代表人工智能发展的新高度。

  • 科普部分需要加强,不仅要讲好基础知识,对于人工智能的最新发展也要进行概要性的介绍,培养同学们对人工智能更大的兴趣。

实施这些意见对于提高整个教材的水平是十分有帮助的。可是,这时候离原定四月份的发布时间只剩下两个月了,还来得及吗?为了做出决定,我给乔宇,海龙与戴娟等几位兄弟实验室和相关部分的负责同事都打了电话,寻求他们的意见,得到了坚决的支持。我们决定,拿出商汤使命必达的决心,把我们的教材打造成⼀部精品。于是,公司和各联合实验室更广泛地动员起来:各联合实验室再调集五位博士加入编委团队,商汤设计部调来了三位设计师加班加点为教材制作插图,研发,工程,和商务团队的多位同事参与审阅和提出修订意见。参与教材相关工作的同事和同学迅速增加到接近三十⼈。

2018 年 2 月 25 号,全体会议又⼀次在上海举行。除了原编委团队外,多位新加入的商汤同事以及华东师大出版社的同仁也出席了会议。会议进行了⼀天,逐个章节进行审议。这次会议进展比较顺利,第三稿终于得到了老师们和出版社的认可。会议决定,抓紧时间根据会上提出的具体建议进行最后修订,在 3 月 5 日定稿交付出版。

 

付梓前后

虽然 2-25 会议决定基于第三稿进行最后定稿,但是编委们都明白,这只是确定了结构和内容,但是这⼀稿在图文细节上还存在很多问题。行百里者半九十,我们必须在细节上精益求精,才能打造出⼀部让我们引以为豪的教科书。

从 2 月 26 号到 3 月 5 号的八天时间里,整个编委团队处于冲刺状态,为教材的定稿日夜不息地进行最后的努⼒。每⼀个章节都会有三位编委进行交叉检验,再交到我手上审阅。我们仔细检查了每个知识点,每个公式,每个图表,对不满意的表述反复讨论修改,对不满意的图表重新进行制作。

3 月 6 日凌晨 3 点,我们把第四稿作为定稿发给了出版社。

定稿交付后,我对比了第三稿和第四稿,虽然内容结构没有重大变化,但是很多段落都经过了重写,⼤部分图表都被重新绘制,整部教材再⼀次脱胎换骨。定稿交付了,可是编委们似乎并没有特别⾼兴。大家觉得这个交付的稿子是有遗憾的——很多地方其实可以做得更好,但是来不及在截止日期前完成了。

我们不甘心留下遗憾。

在和出版社的交流中,我们发现还有⼀次修订的机会。按照⼀般的出版流程,出版社在排版完成后,会把排好版的书稿发给我们,并给我们三天时间校验,在书稿上标示出需要修正的地方。于是,定稿交付后,我们继续进行未竟的修订工作,并把后补的修订⼀处处记录下来。最后修订完成时,我们在第四稿上又进行了⼀千多处局部修改。

3 月下旬,出版社给我们发来了排好版的书稿,我们在三天内把这⼀千多处修改逐⼀标示在书稿上。收到我们的反馈后,出版社震惊了。他们说,排版要重做了……

 

发布

2018 年 4 月 25 日,在商汤人工智能峰会上,同事晓菊把⼀本出版社印好的教材交给我。我翻着书,眼前浮现的都是这大半年来艰辛的编写历程,书中的内容却没有仔细看进去了。海龙说,这是 “十月怀胎,⼀朝分娩” 的感觉。

4 月 28 日,华东师范大学逸夫楼,在多位领导,上百位重点中学校长,以及各方媒体的共同见证下,全球首部中学版人工智能教材发布。

全书共有九章:

第一章. 人工智能:新时代的开启

第二章. 牛刀小试:察异辨花

第三章. 别具慧眼:识图认物

第四章. 耳听八方:析音赏乐

第五章. 冰雪聪明:看懂视频

第六章. 无师自通:分门别类

第七章. 识文断字:理解文本

第八章. 神来之笔:创作图画

第九章. 运筹帷幄:围棋高手


更多高质资源 尽在AIQ 机器学习大数据 知乎专栏 点击关注

转载请注明 AIQ - 最专业的机器学习大数据社区  http://www.6aiq.com