首页 > 科技快讯 > “赌神”的武器:人工智能是如何征服扑克游戏的(二)

“赌神”的武器:人工智能是如何征服扑克游戏的(二)

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:对于德州扑克的职业选手来说,能成为赌神应该是自己的梦想了吧?但是怎么才能成为赌神呢?对这个问题感兴趣并且找到解决方案的,却是数学家与程序员。真正的高手都知道打牌要虚实结合。但到底怎么个虚实结合?应该多少是虚?多少是实?扑克的本质是什么?是靠运气还是技艺?不管扑克玩家自己有没有意识到,或者想不想知道,这种游戏的核心始终都是约翰·冯·诺依曼所揭示的最大化问题。文章来自编译,篇幅关系,我们分三部分刊出,此为第二部分。

划重点:

如果你跟 AI 玩成千上万手牌的话,最终赢的一定是它

顶级玩家把大部分的时间都花在研究可能出现的不同情况上

“赌神”的武器:人工智能是如何征服扑克游戏的(一)

AI 工具

Jason Koon 是 Seth Davies 的朋友,也是他玩扑克的导师,此人还是所谓的“博弈论最优”扑克最早和最忠实的采用者人之一。在为期三天的超级豪客锦标赛的第二天,我拜访了 Koon 价值数百万美元的豪宅。房子位于一个封闭社区内,而这个社区则位于一个更大的封闭社区内,毗邻杰克·尼克劳斯(Jack Nicklaus)设计的高尔夫球场。锦标赛的第 1 天,Koon 付了 250000 美元入场,四个小时后,他被淘汰了,但马上又支付了 250000 美元再度入局,结果他再次输掉了所有筹码。他后来发短信给我:“欢迎来到孤注一掷的锦标赛世界。只需要发挥出你的最好水平——最终还是可以扯平的。”

对 Koon 来说,扯平的形式是赢得的线下锦标赛奖金的总额超过了 3000 万美元(他说,至少跟来自拉斯维加斯与澳门的高额现金游戏一样多)。 Koon 开始认真玩牌的时间是 2006 年,当时身为田径队短跑运动员的他正在西弗吉尼亚卫斯理学院(West Virginia Wesleyan College)康复。玩牌让他过上了不错的生活,但很难在赌注最高的比赛中一直取胜。他说:“在 slover(特定问题求解器,此处特指德州扑克)出现之前,其实我是个相当平庸的玩家,但第二个 solver 出来后,我一头扑进了这个玩意儿,然后我的水平开始提高,提高得很快,很快很快。”

在放满了赢得的各种扑克锦标赛奖杯的家庭办公室里,Koon 转向他的电脑,在 PioSOLVER 上抽出来一手牌。在指定了玩家的筹码大小以及所坐位置可玩的手牌范围之后,他输入了所有玩家都能看到的三张随机的翻牌。一个 13×13 的网格上显示了其中一名玩家可能拿到的所有手牌。 Koon 把鼠标悬停在方格上,寻找不同花色的 A 与 Q。slover 告诉 Koon 这次 39% 的时间都应该过牌;在 51% 的情况下,下注的额度应该相当于底池大小的 30%;其余时间下注的额度应该是底池的 70%。这种冯·诺伊曼式的混合策略技能让他的利润最大化,也能掩饰他的牌力。

多亏了 PioSOLVER 之类的工具,Koon 重新制定了游戏玩法,了解在不同情况下怎么下注才最有效。有时下点小注,比方说底池的五分之一甚至十分之一才比较理想;而在其他一些时候,下到底池的两到三倍大小这种重注才是正确的。而且,虽然优秀的扑克玩家一直都知道打牌需要虚实结合,但 slover 却为 Koon 提供了采用虚实结合更精确的频率,并且根据他手上拿着什么牌,它能确定出什么是采取诈唬策略最好和最差的一手牌。

Erik Seidel 是这项运动的职业选手,他从 1980 年代就开始学习扑克了,他告诉我,如果像 Koon 这样的玩家用今天的知识回到 15 年前的话,可以碾压那个时代最优秀的玩家。Seidel 说:“我还认为,玩牌的所有人都会认为他们是大鱼,”这是用扑克的暗语来形容水平很差的玩家,“现在这帮家伙弄出了很多非常奇怪但确实很有效的玩法,但是如果那时候玩牌的人看见他们的话,我想肯定天天晚上都会邀请他们这样的人去参加比赛的。”(编者注:容易上钩的大鱼)

在遇到比较弱的玩家时,Koon 有时候会故意不按理论上的完美扑克出牌,而是变本加厉地诈唬,或者当 AI 建议下注应该小点时下重注,好利用对手的错误。但在与最优秀的专业人士比赛时,他大多只会尽最大努力复制 slover 的决策——前提是记住人工智能首选的下注规模以及采用不同策略的频率。因为他知道,他自己的人类偏见会不知不觉地影响自己的决策,所以对于特定的一手牌,Koon 经常会随机选择 solver 的策略。他会低头瞥一眼手表上的秒针,或者看一看眼前的扑克筹码,把赌场标志的方向看成是钟面,好让他估算出从 1 到 100 之间的百分比。百分比越高,他采取的行动越激进。 “我会说:好吧,现在是 9 点钟的方向。所以应该是 75%。那就是相当激进的数字了。”在这种情况下,Koon 可能会为自己这手牌选择 solver 认可的下注的最大规模,而如果秒针指向 3 点钟方向,也就是 25% 的话,他可能就会选择过牌。

当然,采用最优策略并不能保证 Koon 不管拿什么样的牌都能赢。不过,根据数学的理论,如果玩的次数足够多的话,最终的结果应该不会亏——而且实际上他会做得比不亏要好得多,这要取决于他对手的策略与理论上的完美玩法相差多远。 Koon 说,如果你跟 slover 玩成千上万手牌的话,“我敢保证,最终赢的一定是它。”

不过 Koon 很快就接着指出,就算有了 solver 的完美策略,扑克要想玩好仍然非常困难。底池很大的情况下输赢带来的情绪波动,以及 12 小时的车轮战所带来的疲劳,这些挑战仍然一如既往,但现在,顶级玩家必须在牌桌以外投入大量工作才能取得成功。就像大多数的顶级职业选手一样,Koon 每周都会把大部分的时间都花在研究可能出现的不同情况上,试图理解这个程序选择背后的逻辑。他说:“solver 没法告诉你为什么自己要做所做的事情——它就是这么做了。所以现在得由扑克玩家来找出原因。”

最优秀的玩家能够对 AI 的策略进行逆向工程,并建立适用于跟他们正在研究的手牌与情况相似的启发法。即便如此,他们要处理的信息量依然很大。当我把自己的想法告诉 Koon,说这就像翻来覆去地看一本 10000 页的书,好尽可能多地记住它时,他马上就纠正了我:“是100000 页的书。这种游戏太难了。”

事实上,Koon 要利用的数据规模甚至比这还要大。他租用了近 200 TB 的云存储空间来存储数据,也就是那些自开始跟 solver 合作以来他开发出来的游戏树数据。虽然跟人面对面玩牌的时候没法获取牌桌上的所有信息,但这种限制未必适用于在线玩的扑克。自动化的机器人,尤其是在赌注较低的扑克游戏中的自动机器人,在 solver 兴起之前就一直是互联网扑克的一个问题,但现在在线上玩牌的人可以用另一个屏幕去寻找 AI 策略来规避规则,去下出最优策略。 Koon 说:“任何时候,只要有赌注够高,可以赢很多钱,而且有可能可以用来行善的设备的话,人们就有办法把它变成作弊工具。”

Koon 倒不是特别担心自己在互联网上跟人比赛扑克的时候对方作弊,但其他的玩家就不那么确定了。职业牌手 Ryan Laplante 表示: “这就是我再也不玩在线比赛的主要原因,我是说真正的扑克比赛。”最近,作为世界扑克系列赛的一部分,在一场入场费为 7000 美元的在线锦标赛里, Laplante 说,在 100 位左右的参赛者当中,他就至少认出了 4 个名字属于传闻被其他网站禁赛的玩家,因为他们使用了所谓的“实时助手”。Laplante 认为最大型的在线网站里面,有一些在比赛监管方面做得还是很好的,但他担心随着 solver 变得越来越普遍,权力的天平将继续转向那些靠作弊获得优势的人。

Laplante 说:“我唯一肯定的只有一件事,那就是情况很快会变得更糟。”

相关阅读:

“赌神”的武器:人工智能是如何征服扑克游戏的(一)

“赌神”的武器:人工智能是如何征服扑克游戏的(三)

译者:boxi。

相关推荐

“赌神”的武器:人工智能是如何征服扑克游戏的(一)
AI玩麻将,6人德州扑克成新赌神?
AI赌神超进化:德扑六人局击溃世界冠军
第三代AI赌神:在六人桌德扑中胜过5个人类顶尖高手
SLG大战中的腾讯游戏:武器很多,纠结不少
36氪领读 | 人生如何高效决策?“扑克女王”教你“6步决策法”
浙大提出会打德扑的“自我博弈”AI,还会玩射击游戏
起底货拉拉老板周胜馥:做过职业赌徒,曾靠年轻女员工招揽司机
假如创业是一场游戏
马斯克再警告:人工智能可能会统治全人类,最怕的是谷歌DeepMind

网址: “赌神”的武器:人工智能是如何征服扑克游戏的(二) http://m.xishuta.com/newsview63698.html

所属分类:人工智能