我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指,事情可能不会有太大改善。每只手一个拇指就足够了。
神经网络并非如此,这是执行类人任务的领先人工智能系统。随着他们变得更大,他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明,网络应该只需要这么大,但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。
在 12 月在领先会议 NeurIPS 上发表的一篇论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明,神经网络必须比传统预期的要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。
论文链接:https://arxiv.org/abs/2105.12806
「这是一个非常有趣的数学和理论结果。」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说,「他们以这种非常通用的方式证明了这一点。所以从这个意义上说,它会触及计算机科学的核心。」
对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆,我们必须首先了解网络的作用。
神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络,研究人员首先为其提供许多图像和对象标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。
网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下,将两个数据点放在 xy 平面上。你可以将这些点与由两个参数描述的线连接起来:线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线,以及一个原始数据点的 x 坐标,他们只需查看这条线(或使用参数)就可以计算出相应的 y 坐标。这条线已经记住了这两个数据点。
神经网络做类似的事情。例如,图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标;坐标的数量称为维度。
一个古老的数学结果表明,要将 n 个数据点与曲线拟合,你需要一个具有 n 个参数的函数。(在前面的示例中,两个点由具有两个参数的曲线描述。)当神经网络在 1980 年代首次成为一股力量时,思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。
「这不再是正在发生的事情。」德克萨斯大学奥斯汀分校的 Alex Dimakis 说,「现在,我们经常创建参数数量超过训练样本数量的神经网络,这意味着必须重写这些书。」
Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性,称为稳健性,这是网络处理微小变化的能力。例如,一个不健壮的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019 年,当 Bubeck 团队意识到该问题与网络规模有关时,他们正在寻求证明有关该问题的定理。
Bubeck 说:「我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会,因为需要了解规模本身。」
在他们的新证明中,这对表明过度参数化对于网络的稳健性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点,该曲线具有与稳健性等效的数学属性:平滑度。
为了看到这一点,再次想象平面中的一条曲线,其中 x 坐标代表单个像素的颜色,y 坐标代表图像标签。由于曲线是平滑的,如果稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于极度锯齿状的曲线,x 坐标(颜色)的微小变化会导致 y 坐标(图像标签)的剧烈变化;长颈鹿可以变成沙鼠。
Bubeck 和 Sellke 表明,平滑拟合高维数据点不仅需要 n 个参数,还需要 n × d 个参数,其中 d 是输入的维度(例如,784 表示 784 像素的图像)。换句话说,如果你想让网络健壮地记住它的训练数据,过度参数化不仅有帮助——它是强制性的。证明依赖于一个关于高维几何的奇怪事实,即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。
耶鲁大学的 Amin Karbasi 说:「证明是非常初级的——没有繁重的数学,它说明了一些非常笼统的东西。」
结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。
其他研究揭示了过度参数化有帮助的其他原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的,但尚不清楚稳健性对于其他事物的必要性。但是通过将其与过度参数化联系起来,新的证明暗示稳健性可能比想象的更重要,一个可以释放许多好处的单一密钥。
「稳健性似乎是泛化的先决条件。」Bubeck 说,「如果你有一个系统,你只是稍微扰乱它,然后它就失控了,那是什么样的系统?这是不合理的。我确实认为这是一个非常基础和基本的要求。」
相关报道:

发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 都多少年了,还没出完整版[二哈][二哈][二哈]哥哥里面超甜超帅简直就是玛丽苏啊[太开心][太开心][太开心]我真的……ins上看到在在发的那句话,真的语无伦次
  • 物以类聚,臭味相投,但是可以避免不必要的冲突。 有趣、智慧的人生在于保持安全距离。 盲打、盲选、有意、无意,都是会遇到一类型的人。 我们可以优化自己和对方。 也
  • IMbougar Sarr在塞内加尔出生和长大,他的小说La plus secrète mémoire des hommes,(即《人类最秘密的记忆》The M
  • 他看起来很外向乐于助人特别礼貌,人际关系也处理的远比我好,是那种在众人聚会上会和社恐人说两句话主动去搭理被遗忘的人的那种人。我调侃说这样可没法和未来的女朋友相处
  • 1994年5月18日欧洲冠军杯决赛AC米兰icon4-0巴塞罗那实用击碎梦幻教科书当巴塞罗那和AC米兰在1993-94赛季欧冠icon决赛中相遇,一切制造经典的
  • #小宋今天吃了什么# 今天吃的是冒烤鸭好久没吃鸭肉了,这个是成都的特色菜,其实就是把烤鸭放在冒菜里一起吃,虽然做法很简单,但是我真的很佩服想出这种吃法的人,因
  • 冒险之魂】 生活总有远方的田野,也有【会买来想要收藏】的艺术级漫画【戳一下,变可爱!快来一起围观帅气奥利弗的日常生活~[哇] 此外《抉择》的漫画番外也将在今天放
  •   生日尾数为2  生日尾数是2的人,天生富贵,命里藏财,有财神和菩萨庇佑,一生贵人运强劲,事业旺盛,在工作上能够如鱼得水,他们大多气质非凡,为人大气,不喜欢斤
  • 分享‮个一‬提升人际魅力‮方的‬法:只‮分求‬享,不求共识那就是,你‮需只‬要把想说的话说‮来出‬就行了,至‮别于‬人认不认可‮不,‬要想太多。如果你‮获想‬得
  • 皈依条件 上人常告诫弟子:人生第一件大事,就是皈依三宝。皈依不是凑热闹,要有择法眼,不要盲从瞎练。在东北,皈依上人有个条件,弟子要天天给父母叩头,为上人的衲袍
  • 师德师风是评价教师队伍素质的第一标准,《意见》明确了司法机关在办理教职员工犯罪案件中适用从业禁止、禁止令规定的具体规则,体现出对师德严重违规问题“零容忍”的态度
  • 那次是我俩第一次见面吧算是,他去之前告诉我说他穿了个拖鞋,然后我到了之后迎面而来的是一个大黑胖子,说实话我内心挺失望的,我发现那人不是冲我来的之后我才松了口气。
  • 为什么谈恋爱这么烦人 真有点一天都好不下去了的感觉 真的是发自内心的讨厌了 哎 希望每个人都可以好好被爱 这样自己的情绪才会稳定 真的不想每天因为感情唠叨这么多
  • 心中装满太多有你陪伴的回忆,想起你的时候,妈妈就会在幻觉中看到你,你的脸上还是像以前一样会露出幸福的微笑,你微笑的样子就在妈妈心里,有你陪伴的日子,是妈妈一生中
  • 今天与我们分享喜讯的是来自高雄的幸福妈咪当年她37岁、婚后16年不孕在历经五次试管失败后来到茂盛医院在取卵后配出五颗囊胚~我们利用"三代试管基因筛查&
  • 甲木生于申月:是指甲木日元生于孟秋申月,申月七月萧杀之气旺,七杀司权,克身重,如不见八字地支寅卯之根,则身弱如无根之浮萍,东漂西漂,如再见财旺来生杀,甲木焉能抵
  • 山东小肯尼亚 | 北方首家长颈鹿庄园酒店庄园里和房间里到处都是长颈鹿元素大堂的两只长颈鹿是去世小鹿做的标本每个房间都有专门的树洞儿童双层床特别适合带着小朋友去打
  • 并不是身边的任何一个人,都可以称得上是摩羯座的朋友,而这对他们而言,更明确的说法应该是人脉。并不是身边的任何一个人,都可以称得上是摩羯座的朋友,而这对他们而言,
  • 同时,患者自己也要正确认识更年期是一个正常的生理变化过程,出现一些症状是不可避免的,不必过分焦虑;解除思想负担,保持豁达、乐观的情绪。此外,合理的饮食对缓解更年
  • 乐观这件事 一点细枝末节的发现56个民族里 55个都很开心快乐唯独有一个 礼教含蓄 却一半乐观一半忧思少民能歌善舞 吃酒喝肉 热情好客是天生的 活力满