扫码关注我们

招生咨询/免费预约体验

010-67237502

绝艺负责人:用全新强化学习方法造就更强模型


绝弈.jpg

       3 月 19 日,在全部由人工智能参加的 UEC 杯世界围棋大赛中,绝艺战胜了所有对手。据介绍,在本次比赛结束后,腾讯 AI Lab 将公开‘绝艺’技术细节,助推围棋 AI 发展。机器之心第一时间专访了腾讯 AI Lab 高级总监、‘绝艺’团队负责人刘永升,他向我们揭示了‘绝艺’背后的秘密。
机器之心:时间拨回到比赛之前,你们有讨论过可能出现的赛事结果吗?或者说当时有夺冠的信心么?

  刘永升:UEC 杯本来就是个学术和技术交流的平台,有世界各国一流围棋 AI 强手,我们是抱着和优秀同行进行学术切磋交流的心态来的,获胜了一方面很激动,一方面觉得也是很幸运。

  机器之心:回忆起比赛的情形,有哪些印象深刻的片段?技术难点主要有哪些?

  刘永升:(决赛)下到中盘一度非常紧张,能明显感觉到 DeepZenGo 的棋力和循环赛相比又有提升,是一位非常值得尊敬的对手,绝艺表现很出色。

  机器之心:能否评价一下本次比赛的对手(特别是 DeepZenGo 与 CrazyStone)?

  刘永升:过去几年,它们一直是围棋 AI 的王者,为围棋 AI 的发展做出了很大的贡献。过去一年,它们都成功把神经网络新技术应用到原来的系统中,大幅度提高了棋力,特别是 DeepZenGo,对职业棋手已经有非常高的胜率。职业棋手对其评价是非常不错的。

  两天的比赛中我们绝艺和 DeepZenGo 交手两次,每次都非常胶着,前面 100 手都是难分难解。绝艺的中后盘相对而言会有一定优势,所以两次都笑到了最后。

  机器之心:据了解,腾讯 AI Lab 的 13 人团队花近一年时间研发打造了绝艺,开发团队成员的背景是怎样的?有围棋高手吗?

  刘永升:绝艺团队有 13 人,一半人做算法研究,一半人做算法实现。所有成员全部隶属腾讯 AI Lab,Lab 于 2016 年成立,专注与 AI 领域的基础科学研究和应用探索,目前有 50 余位世界知名学院的 AI 科学家(90% 为博士)、及 200 多位经验丰富的工程师。

  负责‘绝艺’的团队里,有喜欢围棋的,也有一开始对围棋一无所知。但指导团队的人里有一些高手,AI Lab 负责人姚星先生是业余 2-3 段,AI Lab 所属的 TEG 事业群总裁卢山先生是业余 5 段,我们还特别邀请了职业九段的罗冼河先生作为‘绝艺’的专业陪练。更不用说,腾讯围棋上众多高手,可以毫不夸张,‘绝艺’就是一个跟着棋手一起成长的围棋 AI。

  ‘绝艺’背后的技术

  机器之心:我们知道,在强化学习中,最优策略和最优价值函数都是全局最优解,而不是局部最优解。最优策略是在决定下一步应该下什么棋,后面会保证赢面最大。腾讯报道绝艺的新闻中出现的‘微观’和‘宏观’怎么解读?

  刘永升:通俗的说,‘策略’指每一步博弈时,各种选择的取舍,选好棋弃差棋,这是偏微观评估,也就是每一步的判断;而‘价值’则指能看懂棋局,判断给定棋局是不是能赢,这是偏宏观的评估,也就是围棋里的大局观。

  机器之心:Monte Carlo 搜索树是 AlphaGo 中的一项关键技术。绝艺中用到了吗?

  刘永升:用到了。

  机器之心:腾讯的另一篇报导中也提到‘在绝艺的成长过程中,与人类棋手对弈是绝艺强大起来的重要原因,绝艺的突破性进展总是伴随其战胜某一实力水平的棋手出现。’我们知道,在 AlphaGo 中,人类棋手的棋谱帮助学习了快速走子策略(Rollout policy)和监督学习策略(SL policy);后者做为学习强化学习策略(RL policy)这个非凸优化问题的初始值。初始值的设定可以帮助更快地学习到更好的策略;但是初始值并不决定最终学习到的策略的质量。绝艺的进步‘得益于世界超一流棋手的指导’,这样的说法,请解释一下。

  刘永升:绝艺研发过程中,如何评估棋力以及存在哪些问题是非常困难的。并且随着绝艺棋力提升,普通的棋手基本无法战胜的时候更难暴露其不足。所以,绝艺的研发过程中得益于世界超一流棋手的指导,非常难能可贵,对研发进度有非常大的帮助。

  机器之心:AlphaGo 训练过程基本可以看成在解一个优化问题,自动完成,没有人工干预。腾讯关于绝艺的新闻,在强调世界超一流棋手的重要性;超一流棋手如何与优化问题结合?还是绝艺中有人工设计的规则?

  刘永升:手工干预是过去式,绝艺是完全端到端的决策过程。世界超一流的棋手,主要是分析 AI 的棋局,得出当前存在的问题,从而分析系统深层的原因,最终确定修复点。

  机器之心:绝艺这套系统设计思路是怎样的?相比去年 3 月战胜围棋大师李世石的 AlphaGo(AlphaGo 也是用的策略网络与价值网络),绝艺实现了哪些突破?

  刘永升:‘绝艺’的学习主要包括人类棋谱数据库和机器自对弈,它的算法基于策略网络与价值网络两大核心,并创新性地大幅提升了价值网络的精度,使其大局观表现更好。

  关于绝艺的技术和数据库细节,我们将通过论文进一步公布,希望通过开放合作的研究,希望帮助和启发更多研究者,推动围棋 AI 发展。敬请期待。

  ‘绝艺’背后,是深度学习和强化学习这两个机器学习十分热门的研究领域,它的总体框架遵循 AlphaGo 去年 1 月在《Nature》上发表的文章,是一个纯机器学习系统,但在实践中做了超出论文的创新。

  举例来说,现代强化学习的核心,是用先进的机器学习算法作模拟器,生成高质量、实际有效的数据(experience replay)- 这个过程在围棋 AI 中被称为自对弈。通过这个方法,可以让得学习到的模型不断通过强化生成的数据来自我提高。

  在训练‘绝艺’的机器学习模型过程中,我们探索了一些全新、而且非常有效的强化学习方法,能创造出更优质的自我模拟数据,从而导致了更强的模型。比如,和很多其他围棋 AI 相比,绝艺的对杀能力会更强。AI Lab 构造‘绝艺’的经验,积累了一系列有效的方法,可以通过自我学习产生高质量的强化学习数据。这些方法可以应用在很多别的场景之中。

  至于大家很关心的硬件系统,‘绝艺’的线上系统有单机版和多机版:单机版测试过,差距和多机版没有大家想的那样大。而多机版所用的机器资源比 DeepMind 公开数据所透露的要少,所以绝艺不用靠资源取胜。

  此外,在训练中绝艺利用了腾讯的云计算资源生成高质量数据,这些计算资源在行业内都可以通过腾讯云对外服务直接获取。

  未来的研究方向

  机器之心:腾讯在围棋人工智能技术上的研究(或者说强化学习技术)可以被借鉴到哪些实际生活的应用中?可以举例说明一下吗?

  刘永升:从应用价值上,短期看,腾讯围棋是本身国内最大、最活跃的的围棋平台之一,做得好,可能马上就会有很多人能用上。中期看,AI Lab 关注四大应用方向:内容 AI、游戏 AI、社交 AI 和平台工具型 AI。围棋 AI 就和其中的游戏 AI 密不可分,是腾讯独有且颇有创新潜能的应用场景。长期来看,‘绝艺’背后‘精准决策’的 AI 能力,也能在无人驾驶、量化金融、辅助医疗等地方应用。如果从围棋 AI 的完美对称博弈系统,进化到不完美对称博弈系统,也就是能处理现实中更常见的不确定性问题时,这里的想象空间非常巨大,当然也是比较长远的应用了。

  在我畅想一下未来的时候,我觉得 AI 未来不仅仅是一款成熟的产品,而是真正的深入到所有的大众的心里面去,就是每个人都会让有 AI 在帮助到他。

  机器之心:一直以来围棋都被认为完美信息博弈领域的圣杯,在去年的人机大战之后,人们的关注重点也渐渐转移到了不完美信息博弈上。德州扑克方面的博弈已经取得了很大的进展——AI 在一对一无限制比赛上已经战胜了人类,DeepMind 则又开始了《星际争霸 2》的研究。腾讯 AI Lab 目前有在不完美信息博弈方面的研究工作吗?请给我们介绍一下目前的进展。

  刘永升:游戏 AI 领域,我们确实在从事一些很有意思的相关研究,但具体细节要之后才能公布。

  机器之心:除此之外,AI Lab 还在进行哪些方面的研究?

  刘永升:AI Lab 的研究主要基于四个垂直领域,计算机视觉(Computer Vision)、语音识别(Speech Recognition)、自然语言处理(Natural Language Processing)和机器学习(Machine Learning),基本上涵盖了当今 AI 最前沿的方方面面。每个领域代表一个基础研究方向,又都能进行深层次的研究拓展。

  比如在计算机视觉领域,除了传统的图像处理,还有增强现实(AR)的研究拓展,也会引入空间定位(Simultaneous Localization and Mapping)技术;在语音识别领域,除了传统语音识别、语音合成以外,还会引入自动翻译(Translation);在自然语言处理,除了传统的对人认知行为的研究,还会研究聊天机器;在机器学习领域,从监督类到无监督的机器学习,再到强化学习的机器学习都有。

  从腾讯业务出发,AI Lab 还提出四大专属研究方向:内容 AI(Content AI)、社交 AI(Social AI)、游戏 AI(Game AI)和平台工具 AI(Cloud AI)。

  内容 AI,是基于内容类的推荐和搜索类的应用;社交 AI,作为一个社交基因很强的公司,QQ 、QQ 空间和微信都是社交平台,所以会基于社交研发相关 AI,如社交中的对话、聊天机器人、智能助手等。和全世界其他公司不太一样的方向是游戏 AI。游戏是腾讯一块很大的业务,在游戏里引入 AI 能力的想像空间非常大,未来是不是能看到 AI 参加 LOL 世界电竞大赛,提升整个游戏可玩性和趣味性呢?最后是平台工具类 AI,未来希望能开放这些能力,如基于图像的人脸识别、语音识别、自然语言处理中的舆情分析处理,及深度学习平台等能力。

机器之心:有人说人工智能将围棋提升到了一个新的境界或者说开启了全新的思路,腾讯的野狐平台甚至也可能为此增设了‘十段’的水平,实际上绝艺也是第一个获此段位的棋手。您认为人工智能的发展是否将给人类的传统带来新的启迪?

  刘永升:只从围棋看,绝艺的大局观以及对一些定式的变换,可能会给人类棋手不少启发。

  我们希望绝艺能代表一种科技的责任感——围棋 AI 能积极与人类棋手互动,激发更多人关注并传承围棋文化。腾讯 AI Lab 的愿景是‘Make AI everywhere’,就是说‘让 AI 未来无处不在’。让科技能够‘赋能于人’,让我们的生活更美好。

  机器之心:绝艺即将在 3 月 26 日举行的‘电圣战’人机大战(对阵日本棋手一力辽七段)出场,您认为这次绝艺的胜算有多少?

  刘永升:我们有一定信心,但还是以交流和切磋为主要目的。

  但是围棋的价值取向很多元。除了胜负,还有文化、艺术、娱乐。绝艺赢得比赛,不是 AI 击败人类,也不是科学击败围棋,这里没有赢家或输家,是多赢的。


申请免费试听名额 X
提交申请