第二章 AI复兴:深度学习+大数据=人工智能(第5/20页)

想象一下,20世纪60年代的人第一次看到类似这样的人机对话,会是怎样一种既惊讶又兴奋的神情。但约瑟夫·维森鲍姆公布出来的程序原理和源代码又让当时的人大跌眼镜:ELIZA的程序逻辑非常简单!

ELIZA所做的,几乎就是在一个相当有限的话题库里,用关键字映射的方式,根据病人的问话,找到自己的回答。比如,当用户说“你好”时,ELIZA就说:“我很好。跟我说说你的情况。”此外,ELIZA会用“为什么?”“请详细解释一下”之类引导性的句子,来让整个对话不停地持续下去。同时,ELIZA还有一个非常聪明的技巧,它可以通过人称和句式替换来重复用户的句子。比如,用户说“我感到孤独和难过”时,ELIZA会说“为什么你感到孤独和难过?”这样一来,虽然根本不理解用户到底说了什么,但ELIZA表面上却用这些小技巧“装作”自己可以理解自然语言的样子。

图22 ELIZA对话程序的一个现代实现:Emacs Doctor

ELIZA是那种第一眼会让人误以为神通广大,仔细看又让人觉得不过尔尔的小程序。当年虽有人宣称ELIZA可以通过图灵测试,但更多人只是非常客观地将ELIZA看成是人们第一次实现聊天机器人(Chatbot)的尝试。追本溯源,ELIZA是现在流行的微软小冰、苹果Siri、谷歌Allo乃至亚马逊Alexa的真正鼻祖!

针对图灵测试,人工智能领域还专门设立了一个每年一度的罗布纳奖(Loebner Prize),专门颁发给在图灵测试中表现最优秀的计算机程序。所有聊天机器人程序都可以参加罗布纳奖的评测,以判定是否有程序通过图灵测试。罗布纳奖的竞赛规则和评测方式历经许多次变化与调整。1995年以前以限定话题领域的测试为主,1995年起,罗布纳奖不再限定话题领域。对话时长则从最初的5分钟逐渐增加到2010年之后的25分钟。

评测时,人类评判员坐在电脑前,同时与一个计算机程序和一个真人通过键盘和屏幕对话。对话结束后,评判员根据对话内容,判定与自己对话的两位中,哪一位是电脑,哪一位是真人。如果判定错误,就表明计算机程序在这一次对话中“愚弄”了人类。如果计算机程序愚弄人类的次数超过30%(图灵本人建议的比例数字),就可以认为,该计算机程序通过了图灵测试。罗布纳奖成立至今,尚未有任何程序超过30%的关口。2008年时,一个名叫Elbot的程序骗过了12名人类评测员中的3位,这已经很接近30%的界限 了34。

非常有趣的是,2014年,为了纪念图灵去世60周年,雷丁大学在伦敦皇家学会举办了另一场图灵测试。测试中,一个名叫尤金·古斯曼(Eugene Goostman)的聊天机器人程序取得了33%的成功率。这个聊天机器人程序是由一个名叫普林斯顿人工智能(Princeton AI,虽然叫普林斯顿,但和普林斯顿大学没有任何关系)的小团队设计实现的,它成功地在33%的评判轮次中,让评判员误以为尤金·古斯曼是一个真实的、13岁左右的小孩子。雷丁大学随即宣称,尤金·古斯曼第一次通过了图灵测试!

尤金·古斯曼真的通过了图灵测试吗?消息刚一传出,质疑声就随之而来。根据公布的尤金·古斯曼的聊天记录,罗布纳奖的创立者休·罗布纳认为,雷丁大学的测试时长只有5分钟,远没有达到罗布纳奖25分钟的标准。用5分钟的聊天记录来判定一个程序是否具有智能,这太简单和草率了35。许多学者在亲自与尤金·古斯曼进行过网上聊天后,都觉得这个聊天程序离真正的智能还远得很。至少到目前为止,尤金·古斯曼还没有得到学界的一致认可。

我挑战图灵测试的故事

说起图灵测试,我总会想起我在哥伦比亚大学读书时的一段趣事。

在哥伦比亚大学,我读的不是计算机系,却对计算机相关的课程最感兴趣。当时,教我们自然语言处理课程的老师是迈克尔·莱博维奇(Michael Lebowitz)。他为我们讲述了诺姆·乔姆斯基(Noam Chomsky)的语言学基本理论,比如基本的词法、句法关系,以及人是如何通过语法结构理解自然语言的。

学到了这些语言学方面的基本知识,年轻的我就大胆提出:“我能不能挑战一下图灵测试呢?”其实,我当时提出的想法很简单,就是做一个聊天机器人,而且,是一个只关注自然语言处理这个领域,且在说话风格上模仿我们的老师迈克尔·莱博维奇的小程序。我当时和另一位非常有才华的华人同学胡林肯(Lincoln Hu)一起,完成了程序的设计和开发。