计算机行业周报:ALPHAGOZERO算法获重大突破,人类标记数据依赖度降低

编辑 : 王远发布时间: 2017.10.25 16:30:07 消息来源: sina 阅读数: 70 收藏数: + 收藏 +赞()

行情回顾:计算机板块本周下跌5.14%,同期沪深300(0.15%)。计算机行业内周涨幅排名前三个股:海联讯(19.20%)、维宏股份(11.31)、今天国际(8.25%);周跌幅前三:...

行情回顾:计算机板块本周下跌5.14%,同期沪深300(0.15%)。计算机行业内周涨幅排名前三个股:海联讯(19.20%)、维宏股份(11.31)、今天国际(8.25%);周跌幅前三:诚迈科技(-16.14%)、科大国创(-11.65%)、赢时胜(-11.54%)。本周观点:10月19日凌晨,谷歌人工智能团队DeepMind在Nature上发表论文,宣布新版的--AlphaGoZero基于强化学习算法,可在只了解比赛规则和目标的情形下进行自我学习,并仅用三天时间便完胜曾击败世界冠军李世石的AlphaGoLee。对此我们的观点如下:1、AlphaGo运行原理是在有限的搜索计算量下不断逼近棋局的最优解。围棋作为完全信息零和博弈,其最优解可通过穷举法获得。计算机的工作就在于将围棋巨大无比的搜索空间压缩到可控范围的前提条件下,不断使自己接近最优解。此次AlphaGoZero打败前期AlphaGo版本归根结底就是在更低的搜索计算量下找到了更优的答案。2、与之前版本的AlphaGo相比,此次AlphaGoZero具有以下不同之处:策略网络与估值网络合二为一,运算空间及运算耗能大幅下降。AlphaGoZero通过将策略网络与估值网络合二为一,通过共用大部分的特征提取层从简化搜索过程,节省运算空间并降低运算能耗。网络结构采用残差网络,网络深度更深。不再依靠人类棋谱数据,训练数据样本由AlphaGoZero根据围棋规则自行对弈不断迭代获得。此前版本的AlphaGo训练过程包括两个环节,首先是利用人类专家棋谱进行训练(即“监督学习”),然后再通过自我互博的方法继续提高(称为“强化学习”)。而AlphaGoZero的训练环节则只有后者,系统仅根据围棋规则,在没有人类经验的前提下,直接采用自我互博的方式从0到1进行学习。摆脱人类经验数据束缚(跳出人类知识陷阱),打开了传统AlphaGo系统的棋艺水平天花板。人类由于计算能力的限制本身提供的也是局部最优解,而非真正意义的最优解,因此此前基于此训练的计算机反而会被人类误导而无法最终通过海量数据的强化学习向最优解收敛。新版的AlphaGoZero由于通过自我对弈习得弈棋之法,恰可以摆脱人类的经验束缚。 AlphaGoZero本次实现突破带来的最直接意义在于:①对某些信息透明、客观规则决定问题,不依赖人类感知判断的特定领域,AI有望摆脱对于人类经验数据的辅助和依赖;②新材料、新药研发、量子化学、粒子物理、蛋白质折叠和降低能耗等(具有输入输出信息透明、客观规则明确,可用规则穷举等特点),有望因此取得重大突破。而图像识别、语音识别、无人驾驶等输出结果严重依赖人类感知标记数据的领域,未来或仍无法直接跳过人类经验数据收集的环节。本周推荐:中科曙光(国内AI芯片龙头,与寒武纪深度合作)、科大讯飞(语音识别全球领先、教育、医疗、汽车等领域AI应用深度布局)、数据港(优质数据中心服务商)、思创医惠(AI医疗领域应用领军企业)、中科创达(智能操作系统巨头)、浙大网新(政府信息化系统整合龙头)

声明：如本站内容不慎侵犯了您的权益，请联系邮箱：wangshiyuan@epins.cn 我们将迅速删除。

上一篇：一代股神许国鸿背后的辛酸下一篇：央行公开市场今日净投放1500亿元