关键时刻,第一时间送达


编译 / 金鹿


总部位于英国伦敦的谷歌旗下人工智能(AI)实验室DeepMind与美国当地时间周三(18日)宣布,已经对其最著名的AI程序AlphaGo进行了显著改进。AlphaGo是一种算法,它因在中国古代围棋中击败人类冠军而名声大噪。现在,它已被重新改进,并重新编程为一种名为AlphaGo Zero的AI程序。


图1:DeepMind AlphaGo项目首席研究员大卫o西尔弗(David Silver,左)与首席执行官德米斯o哈比斯(Demis Hassabis)


DeepMind首席执行官德米斯·哈比斯(Demis Hassabis)在谷歌英国总部表示,AlphaGo Zero比AlphaGo“强大得多”。围棋是一款简单的游戏,但同时又非常复杂。虽然只有几条规则,但每步棋有很多可能的走法,这些可能性甚至比宇宙中原子的数量还要高得多。经过3天的训练,AlphaGo Zero就以100:0的比分完胜对阵李世石的那版AlphaGo。


最初的AlphaGo已经给人留下深刻印象,但它依然无法与AlphaGo Zero相媲美。在接受3天训练后,AlphaGo于去年3月份在韩国击败了世界围棋冠军李世石(Lee Sedol)。经过40天训练后,它击败了AlphaGo Master,后者曾在今年5月份成功击败现任世界冠军柯洁。哈比斯说,在短短几天内,AlphaGo Zero实际上已经获得了人类数千年积累的知识,同时也发现了新的知识、围棋策略以及创意性的新棋路。


在没有人类帮助下,

AlphaGo Zero自学如何下围棋


老版AlphaGo AI与AlphaGo Zero之间的主要区别在于,前者通过吸收人类数据学习下棋,而后者则不需要。之前所有的AlphaGo AI都是从网站上下载人类数据(业余和职业围棋)开始训练的。它们观看了数千场比赛,并被告知人类专家在某些位置上的特定动作。但是,AlphaGo Zero并不使用任何人类数据。相反,AlphaGo Zero通过与自己对弈学会了如何玩围棋,完全是“无师自通”。


DeepMind AlphaGo项目首席研究员大卫·西尔弗(David Silver)解释了AlphaGo Zero是如何从零开始学习的。他说:“AlphaGo Zero使用了一种新的强化学习形式,在这一过程中,它成为了自己的老师。我们的想法是,它的起点是一个对围棋一无所知的神经网络,它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来,然后用它来选择下一个动作。”



西尔弗继续称:“在每场对弈结束后,AlphaGo Zero实际上都训练了一个新的神经网络。它改进了自己的神经网络,预测AlphaGo Zero自己的棋路,同时也预测了这些游戏的赢家。当AlphaGo Zero这样做的时候,实际上会产生一个更强大的神经网络,这将导致‘玩家’进行新的迭代。因此,我们最终得到了一个新版AlphaGo Zero,它比之前的版本更强大。而且随着这个过程不断重复,它也可以产生更高质量的数据,并用于训练更好的神经网络。”


这并不是AI研究人员第一次编写没有学习人类数据的算法。今年8月份,美国科技大亨伊隆o马斯克(Elon Musk)斥资10亿美元支持成立的AI研究公司OpenAI透露,它已经开发出了一款AI,可以在没有任何人工输入的情况下,自学如何玩电脑游戏《Defense of the Ancients》。


AlphaGo Zero使用的计算能力也比AlphaGo之前的版本要少得多,这表明,算法的进步远比计算能力或数据进步更重要。AlphaGo Zero是一项重大突破,它为DeepMind的研究赢得了更大的声誉。在AI研究领域,让机器在某些任务中成为“超人”,而不是为它们提供人类数据进行训练始终是一项长期存在的挑战。由于人类数据太昂贵、太不可靠或根本无法获取,从而导致AI研究进展缓慢。


西尔弗曾被美国主流网络媒体BI称为谷歌DeepMind的无名英雄,他补充道:“由于不使用这些人类数据、特性或专业技术,我们实际上已经消除了人类知识的局限性。因此,AlphaGo Zero能够从最初的原则,从空白石板中创造知识,并制定出自己的策略,以及自己独特的下棋方式。这使它能够比以前的版本强大得多。”


当被问及DeepMind使用了多少资金开发AlphaGo时,哈比斯表示,这个数字“可能相当可怕”,很难量化。大约有15名DeepMind顶级员工年薪在六位甚至七位数以上,他们已经全职研发AlphaGo很长时间,而且该公司使用了大量的谷歌计算能力。


机器还远不及

好莱坞电影中所描绘的那样


尽管AlphaGo Zero的突破令人印象深刻,但值得注意的是,研究人员还远没有研究出像好莱坞电影中描述的那些AI,比如《机械姬》(Ex-Machina)或《她》(Her)。如今的AI程序通常可以在单个任务(比如游戏)中胜出,但是它们很难同时完成多个任务,特别是当这些任务处于不同的领域时。


然而,DeepMind现在正在研究如何将与AlphaGo Zero相同的算法应用到真正的科学挑战中,比如蛋白质折叠、降低能耗、寻找新材料或发现新药。哈比斯表示:“我们正在努力建立通用学习算法,而这只是向前迈出的一步,但它的确令人感到兴奋不已。AlphaGo团队许多成员现在正在开发其他项目,并试图将这项技术应用到其他领域。” 





发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • hi!这里是小鱼&小童✨(鱼鱼子) 废话比较多!介绍一下子~ ⭕名:小鱼 鱼鱼子 (怎么喜欢怎么来) 属性:朴灿烈&金钟仁&崔秉灿&许灿 ❌的 没提=无感
  • 昨晚姐姐给我发消息喊我今天过去煮螺蛳粉吃,喊我打车过去给我报销,感动哭,和我姐一起煮了螺蛳粉,还买了酸奶就着燕麦吃(不想说自己有多撑),这个天气我真的太困了,被
  • 白桃乌龙吃甜食搭配一壶清香的茶太合适了,清香的桃子味扑鼻而来,喝起来淡淡的茶香,和惬意的午后休息时光很搭。/77乱七八糟杂记✍/-/空腹运动(运动完,我像极了刚
  • 很多人都有着逆性心理,情感文案 这也不算是一种坏事,只要我们把这种心理利用起来, 逆性心理会帮助你挽回你想要挽回的一段感情。分手文案 一件事情的成败往往会由一个
  • 【多地公安辟谣,仍有人受骗!收到这种短信千万别点!】全国收费公路恢复收费在你筹划出行的同时骗子们也在筹划“剧情”了。详情>>【多地公安辟谣,仍有人受
  • 肾气丸第一次出现,是在“血痹虚劳”章节里,即“虚劳腰痛,少腹拘急,小便不利者,八味肾气丸主之”这也是肾气丸最原始的作用,主要调理虚劳疾病所致的腰痛、少腹拘急、小
  • 在孩子提出过分要求时,要坚决抵制,父母的坚决拒绝会让孩子体会到规则的威力;4.帮忙有忌[马到成功]。在孩子提出过分要求时,要坚决抵制,父母的坚决拒绝会让孩子体会
  • 谈到国家队年龄断层的问题,杨天婴表示:“在国家队层面,应该说年龄不是国家队应该去思考的问题,因为我们知道,每个不同球队,它存在的目的是不一样,比如说中超俱乐部就
  • 中也者,天下之大本也;和也者,天下之达道也。一日走进北大汇丰,终身都是北大人,在最好的时代遇见最好的自己,大浪淘沙沉者为金,风卷残云胜者为王,永远祝福所有幸遇和
  • 在新冠疫苗研发方面,陈薇对世界合作寄予厚望,陈薇院士希望,全世界的共同努力,能够让人类尽早迎来新冠疫苗的面世。”陈薇院士在国家卫生健康委人口发展中心主办、中国家
  • 三亚的夏天,让人怀念的~亚龙湾森林公园,蓝色的天空,脚下的高度,还有彩虹玻璃栈道~迷茫和对未来充满幻想的时候会冲动做很多事,生活中的事情又会突如其来的就出现了~
  • 源末先生说:也许,爱就是这么的残酷无情,就象没有起死回生的痕迹。那留过的痕迹叫我怎能忘,我总是在拭目以待,幻想有一天,你的笑和美丽出现,叫我的爱晴了天。
  • 小赢昨天ig下面互动持续更新中~我们小赢的人缘真的好好呀!eedzilar(这个是gmm的工作人员):好帅!:等着吃P的饺子呢(赢子多吃点)第二个是vill姐姐
  • #萌娃警校[超话]##大美河山# 【吐鲁番火焰山为什么这么热?】 #火焰山地表温度达51度# 儿时的记忆里,火焰山是因为西游记里的孙悟空大闹天宫,偷吃了王母娘娘
  • ” 时光清浅,岁月沉香,心境安然,让我深悟到"不以物喜,不以己悲;居庙堂之高则忧其民;处江湖之远则忧其君"的含义。此则岳阳楼之大观也,前人之述备矣。
  • 至于双身修法也是成就的一种法门,但即使是外道邪道,也把他作为下等劣法,这是很无聊的法。问题是助念的人有没有道行,他是不是一心一意的,这点很重要。
  • DR.CICI第三代ACCU面部轮廓术,不用开刀不用削骨就能拥有完美线[打脸]条的瓜子脸,拥有少女般清晰下颌缘线条 瘦脸提拉祛皱一步到位,并且通过高蛋白改
  • 这次出的试题是《子见夫子乎》王生文中有一小段是这样写的: 喋,老头子,你见俺的夫子吗? 第二天,他又去拜访髯樵,可仍未遇上,但见桌上放着几篇文章,原来是髯樵
  • たかせまな「普段からお仕事以外ではずっとめがねで、めがね大好き人間なのですが、お家にいるときもめがねを気分やファッションによって変えたりしてテンション上げたりし
  • 我是88年男生,去年在群里认识了一位87年女孩,我非常喜欢她,但是她家里找人给她算命后告诉她不能找88年对象,她收入也比我高让我有点自卑,再加上我们认识的时候她