许灿文,在校科研成果突出,本科即在人工智能学科顶级会议发表一作及共同一作论文四篇(CCF-A 类三篇,B 类一篇),研究被国内外专业媒体争相报道;任校 IBM 俱乐部副主席,学科竞赛屡获殊荣;两次获邀担任国内大型编程赛事评委,受邀担任领域内重量级会议亚太计算语言学年会暨国际自然语言处理联合会程序委员会委员。曾于微软亚洲研究院实习;获加州大学圣迭戈分校(UCSD)雅各布工程学院荣誉奖学金(Fellowship)并将于该校全奖攻读计算机博士学位。
骄傲和情怀
描述自己的科研成就的时候,许灿文总是尽量地克制,但是话语里的骄傲还是很难藏得住。“我的目标是比肩计算机领域内全国最优秀的那一批大学生。我觉得我做到了。”本科期间即有5篇论文发表在ACL、WWW等人工智能学科顶级会议上,这意味着他已经达到甚至超过了一般的博士毕业标准。除此之外,他还曾受邀担任大型编程赛事的专业评委、领域内顶尖会议的审稿人和程序委员会委员。
语言是能够改变社会的。这是许灿文研究自然语言处理的初衷。他举了一个例子,比如对于网络暴力现象,如果我们能通过人工智能检测网络中的语言暴力,并及时干预屏蔽,便能够大大减少甚至消除网络暴力带来的悲剧。
许灿文的身上始终带有一种独特的人文情怀。他坦言,自己并不关心排行榜上算法的性能表现,他思索的问题永远是——“我的研究能不能对这个世界产生影响?”
在所有语言当中,许灿文最关心的是中文语言处理。当今自然语言处理领域内约80%的论文和数据都是以英语为研究对象,而中文作为世界上使用人数最多的语言,其研究却相对匮乏。许灿文想要努力打破这个局面。“可以说是一种情怀吧,我不敢说中文是世界上最好的语言,但至少我认为它是世界上最好的语言。”
工作和灵感
许灿文很注重“灵感”,他形容自己是一个“24小时都在冒出新点子的人”。相反,那些在外人眼中庞杂艰巨到难以想象的研究过程,在他看来似乎并没有什么特别值得讲述的地方。许灿文和他的合作者们在2019年的暑假建成了目前为止世界上最大的多任务自然语言处理数据集MATINF。“这个工作完成起来确实没有太大的困难,还挺枯燥的。科研路虽辛苦,但是习惯了也就没什么。”许灿文说。
相比之下,他更愿意谈论那些“有意思”的工作。他的最新研究成果,同时也是他迄今为止最满意的研究成果——通过逐步更换模块压缩BERT,其灵感来源于“忒修斯之船”这个哲学悖论。这一研究成果受到了海内外专业媒体的广泛关注和报道。(如果忒修斯的船上的木头被逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?)19年年底,许灿文拿到了这个研究课题:如何把一个庞大的模型压缩成一个轻巧的模型?之前的普遍做法是,通过算法来“强迫”学生模型去模仿教师模型。这样做的问题是,没有一个“手把手教”的过程,老师模型始终是静态的。而许灿文另辟蹊径,用较小的零件逐步替换原模型中较大的零件,直到最后小模型能够完全代替大模型的工作。这样的方式则是让老师模型“手把手”地教学生,先引导,教会之后再逐步放手。这样“清奇”的思路引发了国外社交平台数百次转赞,也引得海内外专业媒体也争相报道。
这项成果完成于许灿文在微软亚洲研究院实习期间。“我算了一下,实习期间我大概花掉了他们五万美元的算力资源。”许灿文得意地笑道:“会花钱也是一种能力。毕竟,不是所有实习生都能花到五万美元。”
音乐和未来
不同于一般对于“科研人才”的想象,科研之外的许灿文将热情放在了嘻哈、摇滚和电子音乐上。
“它们是活的,有生命力,不会无病呻吟。比如电子音乐,它就代表一种音乐的未来。”他的微博里也至今留着一段嘻哈歌手GAI在2018年的舞台视频,《沧海一声笑》——歌曲炸裂、磅礴,就像他说的,“富有生命力”。
而他想要做的,则是把这些兴趣爱好与自己的科研联系起来。2017年,许灿文以业余选手的身份获得了中国大学生计算机设计大赛(国家级)电子音乐组三等奖。而他毕业设计的题目,则是研究如何利用AI自动生成中文嘻哈的歌词。目前,许灿文正着手研究音乐生成、自动作曲相关课题。在许灿文看来,音乐本质上也是一种语言,人类共同的语言。
毕业后,许灿文将赴全美计算机排名前十的加州大学圣迭戈分校(UCSD)以荣誉奖学金全奖攻读计算机科学与工程博士。许灿文说:“我想证明的是,作为武汉大学计算机专业的学生,‘我们’是有那个实力和魄力去比肩全国最优秀的那批学生的。”他重复了一遍这句话,并特地强调了“我们”。
贾静晗 | 记者
钟雨佳 | 编辑
程姿 | 排版
邵家伟 | 审核
热门跟贴