雷锋网[AI科技评论按]:前不久,阿里巴巴认知计算实验室与伦敦大学学院(UCL)计算机系合作,推出了多智能体双向协调网络(
BiCNet
),将其应用于著名游戏“星际争霸1”中进行测试,研究了多个智能体之间协作行为的学习。在相关论文中,研究人员进行的实验测试了BiCNet良好的性能表现。雷锋网[AI科技评论按]近日采访了这篇论文的通讯作者UCL汪军教授,他为我们详细解答了这篇论文的灵感来源、特点和团队之后的研究方向。
汪军, 伦敦大学学院(UCL)计算机系副教授、互联网科学与大数据分析专业主任。主要研究智能信息系统,主要包括数据挖掘,计算广告学,推荐系统,机器学习,强化学习,生成模型等等。他发表了100多篇学术论文,多次获得最佳论文奖。是国际公认的计算广告学和智能推荐系统专家。
伦敦大学学院 (University College London),简称UCL,建校于1826年,位于英国伦敦,是一所誉满全球的世界顶尖名校。它是伦敦大学联盟(University of London,简称UOL)的创校学院,与剑桥大学、牛津大学、帝国理工学院、伦敦政治经济学院并称"G5超级精英大学"。 时至今日,曾就读、曾任职或现任职于UCL的校友中,共有32位诺贝尔奖获得者和3位菲尔兹奖获得者,此外还不乏政治、科学、文化以及娱乐等多个领域的名人。其中包括人工智能AlphaGo 的创建者戴密斯·哈萨比斯。
据汪军教授介绍,
此次多智能体的论文发现是基于伦敦大学学院(UCL)在机器学习领域深厚的积累,同阿里巴巴集团紧密合作的共同结果。汪军教授强调说,
现在的计算机领域,特别是深度学习方面,研究的迭代速度非常快, 只有通过和工业界紧密合作,工程和科研实力结合,学术团队才有能力去探索更具有开拓性的,更有野心的领域和大问题。比如说,最近他和阿里巴巴的另一个实验室,包括上海交大,天津大学的关于信息检索研究的合作论文( IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
)以三个满分的最高得分被SIGIR信息检索会议录用。
“UCL人工智能和机器学习的底子很强。UCL计算机系现任主任 John Shawe-Taylor教授就是机器学习专家。其支持向量机(SVM)的书被称为广泛采用为教科书。他领导的研究中心名为CSML(Centre for Computational Statistics and Machine Learning),研究的范围广泛,涉及到统计学、计算机和机器学习,研究的范围非常大。Deepmind的创始人兼CEO Demis Hassabis 就是UCL毕业的博士,而AlphaGo那篇论文的第一作者David Silver曾是 UCL 的计算机系助理教授。”
Demis Hassabis(左)和David Silver(右)均出身于UCL
据公开资料,UCL计算机系在人工智能和机器学习领域的研发能力,处于全球领先位置。就在2017年1月,戴密斯·哈萨比斯还专门撰文宣布,Deepmind将与UCL计算机系一道启动顶级培训计划「Advanced Topics in Machine Learning」,应邀参与授课的学者都是机器学习领域各方向的顶尖级人物,涵盖深度学习、强化学习、自然语言识别等方面。
据汪军教授介绍,他自己主攻的智能信息系统领域(信息检索,个性化,数据挖掘,网络广告,强化学习,深度学习)跟阿里认知实验室所作的事情(推荐系统,搜索引擎,网络广告)比较契合。
“阿里的认知实验室负责人袁泉跟我是老朋友,多年的合作,我自己做推荐系统,包括搜索引擎,跟他们这些部门的方向比较契合。这次阿里基于这个计划,希望做些比较前沿科学的事情,我们UCL很高兴跟他们合作。
下一步,我们感觉在电子商务,金融领域,包括其它的一些行业,以后会有越来越多的多重人工智体在其中代替现行智能算法。比如推荐,搜索,广告,这三个东西在电商的场景下怎样协作,怎样互补?目前我们还不知道,现在的解决方案是每个做为独立的一体,单独优化;下一步星际争霸里的人工智能怎么用到推荐,搜索,广告业务里去协同?推荐系统怎么样去帮助广告系统?广告系统怎么样去帮助搜索?这些是需要在实践中去寻找答案的。”
1. 这篇论文的另一大特点,是其研究学习对象是一个多智体(Multi-agent),为什么会选择这么一个“小众”的学习对象?
“Multi-agent系统是个大的研究领域,并不小众,只是深度学习的方法还没有广泛的应用。我们经过一些分析后发现,现在大家都是单智体深度学习的研究,那么人工智能未来的方向,我觉得应该是系统层面上的,一个合作的关系,也包括竞争的关系。这一点,目前强化学习还没有做好,所以我觉得我们应该有这么一些尝试。”
2. AlphaGo打败人类选手前,做了大量的样本学习。星际争霸1里的多智体做了什么类似的工作?
“AlphaGo刚开始效果好,是因为大量的观察专业棋手下棋,但最后优化的时候是自我博弈为主。我们在做完样本学习后,是在多智体的前提下,用了两个网络,训练的时候,用的bi-direction( 双向通讯网络),这个网络的好处就是,效率比较高,可以比较好的平衡计算量和效率;当然这个双向RNN网络并不是我们首创的,之前的工作就已经存在了,有各种各样的场景应用案例, 但是用它来作为通信手段,用在星际争霸里面,这算是所谓的一点点的创新吧。
另外这还只是一个开始,还有很多比较有意思的东西等待我们的发现。例如,我们发现给AI Agent不同的reward奖励,对学习的效果影响很大,我们可能会从这个方面聚焦。”
附论文标题:“进行星际争霸战斗游戏学习的多智体双向协调网络 ”(Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games )
3. 多智体双向协调网络的优点是可以较好的平衡计算量和效率,缺点是什么?
“目前BiCNet还不是一个全局优化的方法,毕竟它是两层的通信。我们目前的效果是不错的,但是我们只是解决了how问题,对why的问题,我们需要重新去思考和实验。比如,智能体在游戏中到底通信了什么信息;在不同的游戏状态下,他们的交流是什么,传输的信息对合作有什么影响等等。这些我们现在还不清楚。”
4. 论文里多智体对战的星际争霸是单机游戏还是人类玩家?要击败对手的主要难点在哪里?
论文7个作者里的分配是怎样的?
是单机游戏。
我先讲一下,我们做这个实验的初衷是先用人工智能的东西跟游戏内部的人工智能进行比较,
因为用游戏内部的人工智能作为对手,我们可以根据对手的数量,强度来对游戏的整个强弱进行一些设置,即在不同的场景下,训练我们人工智能来应付它的能力。还有一点是因为之前的Facebook也采用这样的测试环境模式,这样可以用比较有效地,用我们的方法和它们进行benchmark, 后面我们会考虑是否雇佣人类玩家来测试它的效果。
要击败对手的主要难点这块,
在于怎么让人工智能的Agent较快,以end-to-end的方式,有效地在战争中学会合作打败对方,而不是需要大量的人类提示(最好能比赛中自动学习经验)。
这个难点是因为每个智体做各种各样的动作,action space很大,如果用穷举法来做的话,是不太可能的,特别是在有多个Agent协作的情况下,action space就更大了。怎么有效地去在学习中探索是要解决的问题。
最后,在AI研究中,团队合作越来越重要,我们团队中编程能力强的负责开发和工程方面的问题;理论基础和数学比较强的负责数学模型的建立和推导;写作强的负责论文写作这块的情况。另外值得一提的是,我们的迭代速度很快(利用8个小时时间差),主要是UCL这边工作12个小时,利用时间差,发给阿里的同事,中国的同事再反馈给UCL这边。
5 论文中指出,此次研究中引入的的双向协调网络(BiCNet), 由策略网络(actor)和Q值网络(critic)组成,两者均基于双向RNN。为什么要基于RNN网络?
因为每个游戏Agent之间必须要有个通讯,整个多智能体的通讯在网络隐含层层面,RNN的目的就是通过隐含层把信息传递出来,如果你要全连通的话,计算量会非常大。
6. 你们最新的多智体协作效果,相比Facebook和DeepMind团队的工作如何?
“经过一些测试,我们的效果是比Facebook要好的。Deepmind的相关研究还没有发布,但我们知道他们目前正在做这个事情,至于他们做的效果如何,我们也不太清楚。这个领域还刚开始,大家都是带着问题往前走,至于要说,
到底谁比谁好,我觉得这是一个次要的问题,而且这也通常是一个工程问题
。从科学的角度来讲,多智体系统在星际争霸上做的一些事情,可以解决一些科学的问题,这是比较有意思的部分。”
7. 预测一下星际争霸里多智体协作系统最先应用落地的5个领域,为什么?
-
电商,我们现在已经和阿里的推荐系统,搜索系统具体团队对接,讨论怎么把多智体协作系统应用到电商场景里面,比如电商里能否把多重推荐系统协调起来,预测这个现在的研究方法可能有大的作用。
-
金融,金融的市场存在一个多重买家,多重卖家,怎么根据市场供给和需求来优化我们的购买和效率,多智体协作系统可能能找到比较好的策略,来辅助人的购买策略(注意不会一下子上升到全自动。
-
医疗,主要涉及其中的问答系统方面以及交互式的诊断,通过用户的反馈信息-多智体协作系统怎样在诊断中可以更加精确地帮助把疾病的诊断做得更好,准确,风险降低,起到了一定作用。
-
智能驾驶,智能驾驶要保障零故障,必须要所有的自动驾驶汽车不光能自动驾驶,它同时要相互通讯,来有效地避免出危险的可能性,比如自动驾驶中的一个Agent,在前面危险的情况要刹车,这个信息可以提前通知到后面一个车,在它刹车的时候,后面的车可以采取必要的措施;或者协商过以后,才做刹车动作,所以车与车之间的协作以后有智能体较大的发挥空间。
做多智体研究会不会缔造下一个AlphaGo奇迹?
大家都知道DeepMind这个团队是于2010年在英国伦敦大学学院成立(UCL)的,其背后的某些团队成员自然也跟UCL有着不解之缘。
汪军的学生,上海交大的助理教授张伟楠解释道,其CEO Demis Hassabis曾于2005年前往伦敦大学学院开始攻读神经科学博士学位。
团队另一个成员David Silver,AlphaGo论文的第一作者,在剑桥大学获得计算机科学学士和硕士学位,在阿尔伯塔大学获得哲学博士学位,在MIT读完机器学习的博士后之后,也回到了伦敦大学学院当老师。
多年老友在伦敦大学学院重逢后,Silver被Demis老友叫过去去优化这个游戏,Demis自己作为一个棋类游戏重度玩家,深知围棋在被象棋攻克之后一直还未被攻克,所以顺势成立了AlphaGo部门,加上台湾专门做围棋软的黄士杰博士等12位大牛成员助攻,做了两年无KPI创业后,再有了后面的AlphaGo出世。
当问到汪军教授他们正在进行的多智体研究会不会缔造下一个AlphaGo奇迹? 他委婉地表示:
DeepMind的的这些技术都挺强的,但所有的努力都是卧薪尝胆挺久后出来的结果,没有那么快,所以星际争霸这个多智能体才刚刚开始。
更多雷锋网文章:
阿里推出多智能体双向协调网络BicNet,玩《星际争霸》堪比人类