第二章 AI复兴:深度学习+大数据=人工智能(第6/20页)

我们做的那个程序,名字就叫迈克尔·莱博维奇。学生可以把这个程序当作老师,与“他”聊任何与自然语言处理课程相关的话题。比如,我们可以问这个程序说:“你能告诉我,语言学是什么吗?”这个程序就会装出老师迈克尔·莱博维奇的口吻说:“语言学就是关于人类语言的科学研究,包含句法、词法、语音学等研究方向。”更有趣的是,这个程序甚至会讲许多老师迈克尔·莱博维奇当年常讲的课堂笑话。

我们的程序还很幼稚,有些时候表现得比较呆笨,根本不像一个聪明的人类对话者。但这个小程序还是让老师迈克尔·莱博维奇笑逐颜开,无论是程序本身的幽默感,还是代码中的技术含量,都超过了老师的期望。老师给了我们A+的高分。

从技术上说,今天那些流行的聊天机器人程序和我们那个时代做的小程序相比,已经有了很大的进步。它们都在模仿人类语言风格之外,引入了更大的知识平台作为后盾。例如,聊天程序基于搜索引擎索引到的互联网网页建立知识库,从海量的页面信息中搜集可能的常见问题、常见回答的组合,这已经成为一种非常成熟的技术。当我们与这些程序聊天时,实际上既是一次人机间的对话,也是一次对机器背后庞大知识库的搜索操作。

另一方面,那些以参加图灵测试比赛为目标的聊天机器人程序,往往在对话策略方面有着非常针对性的设计。比如,不少在罗布纳奖测试中排名靠前的聊天程序,都刻意使用了一种攻击性强的对话风格,它们试图更多地控制聊天时的话语权,不给评判员太多深入追问的空间,并用挑战性的问句或引导性的话语,尽量将聊天控制在自己熟悉的话题领域内。这也是罗布纳奖测试为什么在近年要将聊天的时长从5分钟扩展到25分钟的重要原因——没有足够的时间,评判员根本来不及根据自己的思路,与对方深入交流。

无论如何,图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里,推动了人工智能特别是自然语言处理技术的飞速发展。我们憧憬着计算机程序真正使人信服地通过图灵测试的那一天,但我们更希望看到自然语言处理技术在文本理解与分类、语音识别、自动客服应答、自然语言控制界面等领域取得更多商业上的成功。

语音识别与第二次AI热潮

生不逢时的我

20世纪80年代到90年代的第二次AI热潮中,语音识别是当时最具代表性的几项突破性进展之一,而我自己恰恰在那个时代站到了人工智能特别是语音识别研究的最前沿。

让计算机听懂人们说的每一句话、每一个字词,这是人工智能这门学科诞生第一天科学家就努力追求的目标。但直到我从事博士研究的那个时代,语音识别才真正取得实质性的进展——很大程度上是因为我和同时代学者对传统符号主义方法的摒弃。

很多人说,我在人工智能的发展史上留下了自己的名字。这的确是事实。但就像人工智能前两次热潮中的许多研究者一样,我提出的语音识别算法虽然在那个时代处于领先地位,但距离人们觉得系统可用的心理阈值还有一定的距离。我博士毕业后,在苹果公司研发的语音识别系统就难以满足当时市场上人们对听写、输入、控制等功能的需要,很难真正变成畅销的产品。

今天回想起来,我真的有些感慨自己生不逢时。如果我晚生30年,在2010年前后读博士并从事人工智能的研究,那我一定会基于这个时代被证明最为神奇、最有效的人工智能算法——深度学习来重新打造语音识别的整个算法架构,就像今天谷歌、微软乃至国内的科大讯飞在语音识别领域所做的那样。如果我生在今天这个时代,我所开发的技术和产品一定会被亿万人使用,并深刻改变人们的生活方式。

科技发展瞬息万变,每个时代都有每个时代的领军人物和代表性的技术方向。从20世纪70年代末到20世纪90年代中,比尔·盖茨和史蒂夫·乔布斯所代表的PC时代的创业者们,缔造出微软、苹果等科技神话。从20世纪90年代末到2015年前后,谷歌、Facebook、腾讯、阿里、百度等科技巨头以及后生可畏的优步、Snapchat、美团、滴滴、小米等新兴独角兽公司,先后在互联网领域和移动互联网领域引领科技大潮。错过了PC时代的创业者,要在2010年前后去创立一家与联想、惠普、戴尔竞争的PC公司,简直就是痴人说梦。错过了互联网时代的企业家,要在今天去打造一个世界级的通用搜索引擎,就更没有任何可行性。