机器心脏报告
机器编辑部之心
在去年8月底的世界人工智能大会上,时任微软全球执行副总裁的沈向洋正式宣布了由微软亚洲研究院开发的麻将。
人工智能Suphx
。最近,所有关于Suphx的技术细节已经正式发布。
继围棋、德州扑克、Dota和星际争霸之后,微软亚洲研究院的“超级玩家”为人工智能在游戏领域创造了另一个突破——麻将。麻将由于其复杂的玩法、评分规则和丰富的隐藏信息,一直被认为是人工智能研究中一个具有挑战性的领域。微软亚洲研究院副院长刘铁燕曾经说过:“可以说,像Dota这样的游戏更“游戏”,而像麻将这样的象棋和纸牌游戏更“人工智能”。Suphx代表了人工智能系统在麻将领域的最佳成就。这也是第一个在国际知名的专业麻将平台天丰赢得10个排名的人工智能系统。它的力量超过了99.9%的人类玩家。不久前,微软麻将的人工智能研究团队首次在arXiv上发布了Suphx论文,Suphx背后的更多技术细节也发布了。
论文链接:https://arxiv.org/abs/2003.13590's方法概述在论文中,研究人员创建了人工智能系统SUPHX(超级凤凰的缩写),它适用于4名日本麻将玩家。它使用深度卷积神经网络作为模型。首先,根据人类职业玩家的日志,他们通过监督学习来训练网络。然后,以网络为策略,通过自玩强化学习实现网络增强。具体来说,研究者使用流行的策略梯度算法来进行自我游戏强化学习,并提出用三种技术来解决一些已知的挑战:全局奖励预测、甲骨文指导和pMCPA:
全局奖励预测用于训练预测器,以基于当前和前几轮信息预测游戏的最终奖励。预测器提供有效的学习信号,从而可以执行策略网络的训练。此外,研究人员还设计了一个前瞻功能来编码不同赢手的可能性和该轮的获胜分数,从而支持RL代理的决策。甲骨文指南介绍了一个甲骨文代理,可以查看完美的信息,包括其他玩家的私人标题和墙壁标题。由于完善的信息存取,甲骨文代理已经成为一个超级强大的麻将人工智能。在逆向学习训练过程中,研究者逐渐删除甲骨文智能体中的完美信息,最终将其转化为只接受可观察信息作为输入的传统智能体。在oracle代理的帮助下,与仅使用可观察信息的标准RL训练相比,传统代理可以更快地升级。由于麻将游戏规则复杂导致游戏树不规则,限制了蒙特卡罗树搜索方法的应用,研究者提出使用蒙特卡罗策略自适应来提高代理的运行时性能。随着游戏的继续和更多的信息可以被观察到,pMCPA可以逐渐修改和调整离线训练策略,以适应特定的一轮在线比赛阶段。最后,研究人员评估了在天丰上提议的Suphx,天丰是最受欢迎的麻将平台,有超过35万活跃玩家。结果显示,Suphx达到了10级,其稳定等级超过了大多数人类玩家。
Suphx算法Suphx学习主要包括三个步骤。首先,通过监督学习,使用从天丰平台收集的顶级玩家的游戏数据(状态、动作)来训练五个Suphx模型(弃牌、日一、周、乓和孔)。然后使用自我游戏强化学习来改进监控模型,并将这些模型用作策略。研究人员采用策略梯度算法,并引入全局奖励预测和甲骨文指导来应对麻将中的一些独特挑战。接下来,在网络游戏的过程中,研究人员利用运行时策略调整来利用新一轮的观察结果,以获得更好的结果。下图显示了几个模型的结构:
图4:4的结构:丢弃模型。
图5:5的结构:日一,周,庞和孔模型。结合熵正则化的分布式强化学习Suphx训练是基于分布式强化学习的。具体来说,采用策略梯度法,并使用重要性抽样来处理异步分布式训练导致的过时轨迹:
在上面的公式中,θ’是用于训练旧策略的轨迹的参数,θ是最新更新的策略,并且α{π _ θ}(S,A)表示α相对于策略π_θ的操作的优势。研究人员发现RL训练对策略的熵很敏感。如果熵过小,强化学习训练的结果将迅速收敛,并且自迭代不能显著改善其策略。如果熵太大,反向学习训练将变得不稳定,学习策略将变得非常不同。
其中,H(π_θ)是策略π_θ的熵,α> 0。0是权衡因素。Suphx使用的分布式RL系统如下图6所示。该系统由多个自迭代组成,每个自迭代包含一组基于中央处理器的麻将模拟器和一组基于图形处理器的推理引擎来生成轨迹。策略π _ θ的更新与轨迹的生成是分开的:参数服务器使用多个GPU来基于缓冲区制定更新策略。
图6:6:Suphx中的分布式RL系统。为了给RL训练提供有效的信号,全球奖励预测机制需要将最终游戏奖励(全球奖励)适当地分配给每一轮游戏。为此,研究者引入了全局奖励预测φ,它可以根据当前回合和之前所有回合的信息来预测最终的游戏奖励。在Suphx中,报酬预测器φ是一个循环神经网络。具体而言,它是一个两层门控再循环单元(GRU)和两个完全连接的层,如下图7所示。
奖励预测:GRU网络。奖励预测变量φ的训练数据来自“天丰麻将”中顶级玩家的日志,φ通过最小化均方误差来训练:
当φ训练大致相同时,对于k轮的自迭代,“φ (x k)-φ (x {k-1})作为RL训练的k轮奖励。在Suphx中,首先要做的是使用所有特性(包括完美特性),然后通过强化学习来培训甲骨文代理。然后,完美的功能逐渐减少,以便oracle代理最终可以转换为普通代理:
其中x_n(s)代表状态s的一般完美特性,x_o(s)代表状态s的其他理想特性,δ_t是第t次迭代中的损失矩阵,其原理是伯努利变量,其中p (δ t (I,j) = 1) = γ _ t。参数化蒙特卡罗策略调整研究人员提出了一种新的方法,称为参数化蒙特卡罗策略调整。在每轮开始时,使用以下方法调整离线培训策略,以适应其初始的个人卡:
模拟。随机抽取其他三名对手的私人牌和除自己私人牌以外的所有牌,采用离线预训练策略进行展示,完成对整个环境轨迹的探索。因此,将生成总共k个轨迹。调整。卷展栏生成的轨迹用于渐变更新,以微调离线策略。推论。使用微调后的策略与本局的其他参与者对抗。h用于表示代理在这一轮中的私人手,θ_o是离线训练策略的参数,θ_a是为这一轮调整的新策略的参数,因此:
其中,T (h)是h指针下的一组轨迹,p(τ;θ)表示当θ作为参数时策略产生轨迹τ的概率。在Suphx的离线评估和监督研究中,研究人员通过监督研究分别培训了五个模型。每个训练样本都是从职业玩家那里收集的“状态-动作”对,状态作为输入,动作作为监督学习的标签。训练数据的大小和测试精度如下图所示:
表3:监控学习结果。强化学习为了证明Suphx中每一个RL成分的价值,研究人员培训了几个麻将经纪人:
监督学习代理。如前一节所述,该代理(所有五种型号)都受到监督和培训。SL-弱:训练不足的SL代理版本可以用作评估其他代理时的比较模型。强化学习代理的基本版本。在RL-basic中,丢弃模型用SL丢弃模型初始化,然后通过策略梯度法迭代,使用舍入分数作为奖励和熵正则化。日一、周、庞和孔的型号与SL代理相同。RL-1:该RL代理通过全球奖励预测增强RL-basic。奖励预测器使用来自天丰的游戏日志通过监督学习进行训练。RL-2:该代理通过甲骨文的指导进一步增强了RL-1。在RL-1和RL-2中,只有RL用于训练丢弃模型,而其他四个模型与SL代理相同。下图8显示了1000多份这些药物样品中稳定片段的四分位数间距。
图8:超过100万个匹配的稳定细分数据。通过全球奖励预测器将游戏奖励分配给每一轮,训练有素的代理可以更好地最大化最终游戏奖励,而不仅仅是每一轮的分数。图9中的代理人(球员面朝南)在最后一轮遥遥领先,并且有一手好牌。
在线评估为了评估Suphx的真实表现,研究人员要求Suphx在最受欢迎的日本麻将在线平台天丰上打麻将,天丰有两个房间,一个是专家室,另一个是凤凰室。专家室只对人工智能和4段以上的人类玩家开放,而凤凰室只对7段以上的人类玩家开放。基于此,Suphx只能选择专家房间。下表4显示了超级玩家和人工智能/人类玩家之间的比较。就稳定性而言,Suphx比Bakuuchi和NAGA高两个等级,后两个是以前最强大的麻将人工智能系统。
表4:4:超级玩家和其他人工智能/人类玩家的比较。下图11显示了天丰活跃用户的细分记录。Suphx超过99.9%的人类玩家。
图11:天丰平台人类玩家得分记录。每个条形图代表平台上每个级别以上的玩家数量。
图13: suphx保留了一张安全卡来平衡攻击和防御。一般来说,人类玩家可以在红色的盒子里玩牌,但是Suphx把它放在手中,在蓝色的盒子里玩牌。这可能比玩牌慢,但可以为以后的玩牌提供更大的灵活性。如果另一个玩家玩了意想不到的s_{t+k},Suphx可以玩安全卡而不影响总和卡。如果Suphx以前用红色方块玩牌,那么到s_{t+k}时,就没有合适的牌可玩了,只有他手里的对子可以被拆分,这最终会影响到平局,导致获胜的可能性更小。