DeepMind在最新Nature论文中讲述了最新版“阿法狗”—— AlphaGo Zero从零起步学围棋,经过3天之后轻松战胜其前任AlphaGo的过程。
从零开始:
和之前的“阿法狗”不同,最新版的AlphaGo Zero已经不需要人类的样例或指导,不提供基本规则以外的任何领域知识,不需要人类数据,而是完全自我学习,在自我对弈中不断提高。3天的自学后,AlphaGo Zero以100:0的成绩完虐阿法狗,也就是之前与李世石大战的那个。而经过40天左右的自学之后,他已经击败了以往任何版本的AlphaGo。
视频画面:
评论