第三章 人机大战:AI真的会挑战人类?(第3/15页)

游戏既是Deep Mind团队最好的市场和公关手段,同时也帮助Deep Mind在人工智能领域迅速建立起不同寻常的技术优势。借助在游戏领域取得的经验和方法,Deep Mind已经开始用人工智能技术帮助谷歌的数据中心合理调度、分配电力资源,达到省电的目标。此外,Deep Mind与牛津大学合作开发了根据人类说话时的口型猜测说话内容的唇读技术Lip Net,与英国国家医疗服务体系(NHS)合作推出了综合性的医疗辅助应用Streams,与眼科医院合作帮助眼部疾病诊断……哈萨比斯说:“我坚信Deep Mind正在从事的研究对人类的未来至关重要,而且这值得我们做出一些牺牲。”59

从下象棋、开发游戏的天才少年,到利用人工智能技术造福人类的计算机科学家,哈萨比斯的梦想正在实现。一个会玩游戏的人工智能和一个会帮助医生诊疗疾病的人工智能,它们之间的技术,竟有如此之多的共同点——技术的神奇莫过于此。

德州扑克:开启新世界的大门?

我自己很喜欢打德州扑克,经常参加德州扑克比赛。在牌桌上,自我感觉是一名稳健型牌手,保持了还算不错的胜率。

围棋是一项讲究计算和形势判断能力的游戏。而德州扑克就与此不同,它讲究的是在多人博弈中,避免人性贪婪、恋战等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。人工智能已经在围棋领域取得历史性的突破,那么,在德州扑克的世界里,人工智能的表现又如何呢?

如前所述,在围棋、象棋等游戏中,人工智能可以和人类选手一样,在每一步决策前获得棋盘上的全部信息。这种限定规则,随时可以获取全部信息的游戏,我们可以称之为“完整信息的博弈游戏”。而在《星际争霸》或德州扑克中,人工智能和人类选手通常无法在特定时刻获得有关游戏的全部信息,比如,在德州扑克中,你无法知道对手的底牌是什么,你也不知道发牌员发出的下一张牌是什么,在这类“不完整信息的博弈游戏”里,人工智能必须像人一样,根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。

显然,对于实现人工智能算法而言,不完整信息的博弈游戏在技术难度上要大得多。就在哈萨比斯的团队借助《星际争霸》磨炼下一代人工智能算法的同时,卡内基-梅隆大学的研究者选择了德州扑克作为他们攻克此类问题的出发点。

来自卡内基-梅隆大学的托马斯·桑德霍姆(Tuomas Sandholm)教授与他的博士生诺姆·布朗(Noam Brown)最早开发了一款名为Claudico的德州扑克程序。Claudico是一个拉丁文单词,对应于德州扑克中的一种特别的策略——平跟(limping),指的是翻牌之前,选择跟大盲注而不加注的策略。平跟这种策略,在人类德州扑克比赛中,使用的频率并不是很高,但据托马斯·桑德霍姆介绍,计算机通过学习发现,使用这种策略有许多好处。值得注意的是,托马斯·桑德霍姆的团队在研发德州扑克程序时,主要不是向人类职业选手学习打牌技巧,而是让计算机通过自我训练,自己寻找最好的方法。

Claudico从2015年4月到5月,在匹兹堡的河流赌场与人类选手同台竞技,在无限制投注的一对一比赛中,轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是重复牌局的玩法,即在不同房间的两张牌桌上使用完全相同但人机对调的两副牌。这次比赛,AI似乎还很稚嫩。比赛进行过半,人类就领先Claudico大约46万个筹码。最终,人类选手以大约73万个筹码的优势赢得了比赛。

Claudico在2015年初出茅庐的这次比赛以失利告终。这个剧情,有些像1996年IBM深蓝输给卡斯帕罗夫的那一次。与Claudico交过手的道格·波尔克说,Claudico与人类的打牌方式非常不同,“人类选手的下注数量可能是彩池的一半或四分之三,而Claudico有时只吝啬地以彩池的十分之一来下注,有时则以彩池的十余倍来下注。人类可不会用19000美元的下注去博取区区700美元的彩池”60。

2015年的失利并没有让托马斯·桑德霍姆教授灰心。2017年1月,教授带着一个名为Libratus的新版本德州扑克程序卷土重来,再战匹兹堡的河流赌场。像上次一样,新版本程序的名字Libratus也是一个拉丁文单词,对应于程序使用的均衡(balanced)策略——这一策略源自数学家纳什定义的一种完美博弈的模型。