中关村在线

办公打印

机器强化学习 2017年最尖端的科技成就

【中关村在线原创】2017年麻省理工科技评论给出的十大科技进步里面,榜上有名的强化学习技术。这个技术体现在哪里呢?众所周知的成果就是围棋程序AlphaGo。强化学习的结果强大到不可思议。

不同学习方式的比较

机器学习的类型

上图可知,机器学习一般分三大方式。第一种叫监督学习。简单来说就是要告诉计算机这是猫,并且给它非常多确定是猫的图片,电脑总结出规律之后,再给它一张陌生的图片,它会判断图片里是不是猫的几率。当然也可以用来做病理图片诊断、手写体识别、甚至发现财务造假等等。

监督学习和非监督学习输入的不同,前者往往可以获得不错的结果

第二种办法是非监督学习。比如你给机器很多杂乱无章的图片,让它去归类,哪些是肖像、哪些是风光。无监督学习因为资料源就乱,所以结果不像有监督学习的那么好,能做到结果是收敛的就已经不错。

学术论文的可重复性是我们期待的原因

关键是在乌镇,Alpha Go的首席架构师David Silver明确表示,围棋用的办法叫做强化学习。

新论文:强化学习的巨大威力

Deepmind没有爽约,又在顶级学术期刊《自然》杂志上发表了一篇新的论文,可人们惊讶的发现这篇论文和在网络肆虐过、在乌镇与柯洁下围棋的AlphaGo Master没什么关系,Master反而成了一个比较的对象。论文的名字叫做《不借助人类知识掌握围棋》。

新论文来了,但是却打开了一扇新的大门

Deepmind指出“AlphaGo Zero 得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。

不同版本的棋力比较,强化训练的AlphaGo Zero达到了5000多分的估值

这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。”

40天成长曲线

如何验证这种学习方式的成果呢?答案是用既往的AlphaGo来测试。上面的图片表示了AlphaGo Zero在40天内不断超越过去的版本,达到了无人之境。只可惜谷歌将计算资源干别的用了,所以棋力停留在40天的水平,如果时间更长,会更强。

强化学习征服其它棋类

强化学习既然这么有用,为何不在其它项目上试试?Deepmind将这个想法诉诸于国际象棋、将棋和围棋,同过强化学习训练的方式来看看效果,这个项目称之为Alpha Zero,比AlphaGo少个代表围棋的Go。

AlphaZero在国际象棋、将棋和围棋上都有更好的表现,所谓通杀

上面就是学习成果,面对强悍的软件,AlphaZero的学习能力非常彪悍,超越了国际象棋软件、将棋和之前同时间训练的围棋AlphaGo Zero。这说明强化训练这种方式至少在棋类项目是通用的,这比过去前进了一大步。

2017年的十大科技突破

过去的情况是,一种神经网络训练的结果只能对应一个功能,比如识别图片的AI,就只能干识别图片这一个事情,而这次的AlphaZero则是通过强化学习,只要输入规则就可以干不同的事情,这是最大的进步。当然这距离通用的AI还太过遥远,但是这种跨项目的突破,以及在其它领域的应用,使得其被《麻省理工科技评论》评为年度十大科技突破。

强化学习的资源支撑

道理看着并不复杂,围棋现在已经有了很多个人写的软件,也使用一样的实现方式,那么个人是不是也能实现技术突破呢?事实上是不可能。Deepmind是谷歌的子公司,在这个过程中谷歌巨大的计算资源一直是不可或缺的。无论是AlphaGo Zero还是AlphaZero,都是同时使用数千个TPU进行训练,数千个TPU什么概念?这里有个估算。

使用Volta架构的TitanV有更多的Tensor核心

谷歌4个TPU,可以提供180T的张量计算能力。而nVidia最新的TitanV,单卡是110T,因为Titan V是完整的Volta架构,比普通的游戏卡多了640个Tensor单元。问题来了,Titan V单卡就要两万元左右,构建一个数千块Titan V或是Tesla P100的机房,可不是简单的硬件成本那么简单了。所以如果自己用1080ti训练AlphaGo Zero,大约要1700年,而Deepmind只要40天,而训练AlphaZero的TPU更夸张,多达5000个,所以得到结果更快,这也是大公司的实力。

硬件计算资源成为AI训练的瓶颈

这种硬件要求下,如果要进行大规模的训练,要买背靠大树或是有巨额融资来构建自己的平台,要么就要用很多钱来租用超级计算机的时间,这要比自我搭建可能会便宜一些,但无论哪种,都已经不是单枪匹马才能完成的了,AI浪潮下,参与的门槛越来越高。

Titan V给了普通人的电脑运行高级AI成果的可能

不过机器学习有个好处,就是训练费事,但是使用简单。AlphaGo Zero训练用了几千个TPU,但是训练好的网络,运行只要4个就足够,双卡TitanV的张量能力已经足够跑起来,只是没有单机版而已,这也是机器学习的魅力所在,强化学习在2017年成为了十佳科技进步也不奇怪,我们也希望在2018年AI领域有更多的突破来改变这个世界。

展开全文
人赞过该文
内容纠错

相关电商优惠

HP M701n

HP M701n

5699
72人评分
100%好评
HP P1108

HP P1108

1059
1402人评分
99%好评
兄弟2260D

兄弟2260D

949
1183人评分
98%好评
佳能LBP2900+

佳能LBP2900+

839
1150人评分
96%好评
奔图P3305DN

奔图P3305DN

3400
13人评分
87%好评

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具