关键时刻,第一时间送达


编译 / 金鹿


总部位于英国伦敦的谷歌旗下人工智能(AI)实验室DeepMind与美国当地时间周三(18日)宣布,已经对其最著名的AI程序AlphaGo进行了显著改进。AlphaGo是一种算法,它因在中国古代围棋中击败人类冠军而名声大噪。现在,它已被重新改进,并重新编程为一种名为AlphaGo Zero的AI程序。


图1:DeepMind AlphaGo项目首席研究员大卫o西尔弗(David Silver,左)与首席执行官德米斯o哈比斯(Demis Hassabis)


DeepMind首席执行官德米斯·哈比斯(Demis Hassabis)在谷歌英国总部表示,AlphaGo Zero比AlphaGo“强大得多”。围棋是一款简单的游戏,但同时又非常复杂。虽然只有几条规则,但每步棋有很多可能的走法,这些可能性甚至比宇宙中原子的数量还要高得多。经过3天的训练,AlphaGo Zero就以100:0的比分完胜对阵李世石的那版AlphaGo。


最初的AlphaGo已经给人留下深刻印象,但它依然无法与AlphaGo Zero相媲美。在接受3天训练后,AlphaGo于去年3月份在韩国击败了世界围棋冠军李世石(Lee Sedol)。经过40天训练后,它击败了AlphaGo Master,后者曾在今年5月份成功击败现任世界冠军柯洁。哈比斯说,在短短几天内,AlphaGo Zero实际上已经获得了人类数千年积累的知识,同时也发现了新的知识、围棋策略以及创意性的新棋路。


在没有人类帮助下,

AlphaGo Zero自学如何下围棋


老版AlphaGo AI与AlphaGo Zero之间的主要区别在于,前者通过吸收人类数据学习下棋,而后者则不需要。之前所有的AlphaGo AI都是从网站上下载人类数据(业余和职业围棋)开始训练的。它们观看了数千场比赛,并被告知人类专家在某些位置上的特定动作。但是,AlphaGo Zero并不使用任何人类数据。相反,AlphaGo Zero通过与自己对弈学会了如何玩围棋,完全是“无师自通”。


DeepMind AlphaGo项目首席研究员大卫·西尔弗(David Silver)解释了AlphaGo Zero是如何从零开始学习的。他说:“AlphaGo Zero使用了一种新的强化学习形式,在这一过程中,它成为了自己的老师。我们的想法是,它的起点是一个对围棋一无所知的神经网络,它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来,然后用它来选择下一个动作。”



西尔弗继续称:“在每场对弈结束后,AlphaGo Zero实际上都训练了一个新的神经网络。它改进了自己的神经网络,预测AlphaGo Zero自己的棋路,同时也预测了这些游戏的赢家。当AlphaGo Zero这样做的时候,实际上会产生一个更强大的神经网络,这将导致‘玩家’进行新的迭代。因此,我们最终得到了一个新版AlphaGo Zero,它比之前的版本更强大。而且随着这个过程不断重复,它也可以产生更高质量的数据,并用于训练更好的神经网络。”


这并不是AI研究人员第一次编写没有学习人类数据的算法。今年8月份,美国科技大亨伊隆o马斯克(Elon Musk)斥资10亿美元支持成立的AI研究公司OpenAI透露,它已经开发出了一款AI,可以在没有任何人工输入的情况下,自学如何玩电脑游戏《Defense of the Ancients》。


AlphaGo Zero使用的计算能力也比AlphaGo之前的版本要少得多,这表明,算法的进步远比计算能力或数据进步更重要。AlphaGo Zero是一项重大突破,它为DeepMind的研究赢得了更大的声誉。在AI研究领域,让机器在某些任务中成为“超人”,而不是为它们提供人类数据进行训练始终是一项长期存在的挑战。由于人类数据太昂贵、太不可靠或根本无法获取,从而导致AI研究进展缓慢。


西尔弗曾被美国主流网络媒体BI称为谷歌DeepMind的无名英雄,他补充道:“由于不使用这些人类数据、特性或专业技术,我们实际上已经消除了人类知识的局限性。因此,AlphaGo Zero能够从最初的原则,从空白石板中创造知识,并制定出自己的策略,以及自己独特的下棋方式。这使它能够比以前的版本强大得多。”


当被问及DeepMind使用了多少资金开发AlphaGo时,哈比斯表示,这个数字“可能相当可怕”,很难量化。大约有15名DeepMind顶级员工年薪在六位甚至七位数以上,他们已经全职研发AlphaGo很长时间,而且该公司使用了大量的谷歌计算能力。


机器还远不及

好莱坞电影中所描绘的那样


尽管AlphaGo Zero的突破令人印象深刻,但值得注意的是,研究人员还远没有研究出像好莱坞电影中描述的那些AI,比如《机械姬》(Ex-Machina)或《她》(Her)。如今的AI程序通常可以在单个任务(比如游戏)中胜出,但是它们很难同时完成多个任务,特别是当这些任务处于不同的领域时。


然而,DeepMind现在正在研究如何将与AlphaGo Zero相同的算法应用到真正的科学挑战中,比如蛋白质折叠、降低能耗、寻找新材料或发现新药。哈比斯表示:“我们正在努力建立通用学习算法,而这只是向前迈出的一步,但它的确令人感到兴奋不已。AlphaGo团队许多成员现在正在开发其他项目,并试图将这项技术应用到其他领域。” 





发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • *☕️*每次和friend去蛋糕店的时候 总是在已吃过和想尝试左右摇摆 毕竟我真的经常踩雷 这次让我惊艳的反而是苹果肉桂拿铁 意外的醇厚 没有苦涩和辣味
  • [心]电影《我和我的父辈》上映1年了,还记得你当初在影院里的感动吗[悲伤]#王鹤棣下班打卡两宫格# [抓狂]#王鹤棣[超话]#爱是一次次挥手,是一遍遍鞠躬是内心
  • #扎心学长[超话]##恋人往事[超话]# 越过寒冬拥抱你,真爱给你生感激! 你我名最短情诗,很喜欢你我爱人! 春去秋来海棠开,热情似火满满爱! 喜欢你我暖整冬,
  • 那人聽到這話,覺得好生奇怪,正納悶呢,發現門上,貼著壹張墨跡未干的紙條,上寫道:世人认假不认真,天天誠心拜洞賓,今日洞賓來拜訪,叹君少顆真善心!这三年吕洞宾,也
  • 】善导大师云: 一切凡夫,不问罪福多少,时节久近,但能上尽百年,下至一日至七日,一心专念弥陀名号,定得往生,必无疑也。——释迦牟尼佛《大般涅槃经》彻悟禅师云: 
  • 5月25日,在 “中国2型炎症皮肤病临床研究与均质化诊疗项目协作单位”揭牌仪式后,皮肤科组织召开了2型炎症皮肤病网络学术研讨会。【共享健康 守护有我】为您的肝脏
  • 22.被人占了便宜还假装没事的人呢,才是最蠢的,你以为你的好脾气,宽容,就能够为你带来好印象,在别人眼里只会觉得你老实,更好欺负,下次还会占你的便宜,你对别人的
  • 一定不要丢掉了那个满眼温柔满心是你的男孩,傻姑娘……#蒙古#【谁能想得到,这么大一个外蒙古,GDP居然不如内蒙古的5%】蒙古国,面积156万平方公里,人口仅30
  • 国盛证券则指出,当前指数已是“技术性牛市”上升通道保持得较为良好,只要调整幅度可控,趋势未逆转,仍有较高布局结构性的机会。银河证券指出,4月27日反弹以来,小盘
  • #杭州高校学生为公益花式拉票#公益探访大凉山彝族家庭|||我不知道让他们走出大山,脱离贫困需要经历多少代人,但只要关注,便是希望。當然,扶貧脫貧並非簡簡單單的給
  • [加油][可怜][doge]终于刷完结局后的一些意难平[苦涩][苦涩][苦涩]当我的炎将军满心满眼都只有一个人的时候,温柔与柔情真的要溢出来了,他好漂亮[泪][
  • 身边很多朋友都用空气炸锅,我知道又要被说不合群了[允悲] 不过真相还是需要有人说出来:空气炸锅食物加热的温度非常高,高温条件下很多食物的营养会被破坏,含碳水和蛋
  • 父母妻儿百千万,非是菩提增上缘,念念相缠入恶道,分身受报不相知,或在猪羊六畜内,披毛戴角何时了。且莫说碌碌庸人之身,不愿更受,即为人天王身,及出家为僧,一闻千悟
  • 真正的面向人,绝不是自说自话,也不是按着用户的头、让他们吃屎,更不是泯灭自我,24小时自我压榨。或许老天认为对方并不是你理想的对象,一生的路还很长,老天一定会安
  • 第三,是深信自己内在的灵,就是我们的灵性,是与圣贤无二无别的。北京的一位朋友等我回国后为他治病,用的就是天医门派的医术。
  • 国庆前晚,将一根萝卜,切粗条,先以糖腌制,静放一二时辰,逼出汁液,弃之,不用。国庆后一日,翻搅品尝,醋味过淡,且有寡白之味。
  • 【小区】东南智汇城【房屋结构】三 室【面 积】150㎡【工程进度】定制安装结束更多内容请登录公司网站:咨询热线:4000-899-680 #一品威客[超话]##
  • 2019中国(河南)国际大学生时装周将于5月下旬举行】4月11日,“2019中国(河南)国际·大学生时装周暨青年时尚创意文化节”举行新闻发布会。2019中国(河
  • 经开区:储备充足,品类丰富,完全能够满足市民生活需要9月2日,经开区发布提示:目前,我区正在组织全员核酸检测,同时,相关部门正全力加强市场保供,市场上各大超市粮
  • 男人心中最善解人意的星座女双鱼座双鱼座的女生,就像是月光一样,皎洁明亮,多愁善感,也温柔似水,她们是用手段和柔情把男人绑牢在身边的女人,也是诚实遵守爱情的女人。