鱼与熊掌可以兼得——“联邦迁移学习”直面小数据与隐私关切挑战

2019-06-20 10:29:08 来源: 《前沿科学》 作者: 杨 强、童咏昕、王晏晟

前海微众银行、香港科技大学 杨 强

北京航空航天大学计算机学院 童咏昕 王晏晟

人工智能领域目前的发展十分迅猛,具有广阔的市场前景。2018年,独立咨询公司Gartner提出,到2022年,人工智能的商业价值预计会达到3.9万亿美元。中国方面,清华大学发布的《中国人工智能发展报告2018》显示,2017年中国人工智能市场规模达到238亿元,同比增长67%,预计2019年我国人工智能市场增速将达75%。

除了市场的普遍看好,中国政府也十分重视人工智能领域的发展。在2017年相继印发《新一代人工智能发展规划》和《促进新一代人工智能产业发展三年行动计划》,旨在抢抓重大战略机遇,引导产业发展。

算法、算力和数据是支撑人工智能发展的三大基石。近年来,以深度神经网络为代表的机器学习算法蓬勃发展,计算机硬件不断升级,算法和算力不足的问题已经初步得到了解决,互联网大数据的兴起又解决了过去数据不足的问题。人工智能的第三次浪潮席卷而来。

人工智能遭遇两大困境

既然我们终于打破了过去限制人工智能发展的种种阻碍,那么,未来人工智能的发展道路是否就一马平川了呢?

现实并没有那么简单,尤其是大数据的需求还远没有得到满足。大部分企业和机构所拥有的很多是小数据,而且数据孤岛现象日益严重。社会对隐私安全的关切也日益加强,立法机构纷纷引入数据保护和隐私权益的相关法案。这些因素,使得数据的获取、交换、聚合成了大问题,而这些困境很可能导致这次人工智能浪潮因数据的制约再次陷入低谷。

首先,小数据问题极大地制约了大数据的可用性。虽然互联网每天产生数以亿计的数据,然而其中真正有用的高维度、高质量数据却很少。除此之外,数据的标签对于进行人工智能的分类任务必不可少,但是大多数数据都缺少分类标签,且获取标签的成本巨大,数据标签的拥有方(如金融机构)和用户行为数据的拥有方(如互联网企业)不能简单地把各自的数据互通。在医疗领域,对数据进行标注的必须是具有专业素养的医生,但是医生的工作时间有限导致标注量稀少,极大限制了高质量数据的产生。有人估计,如果把医疗数据交给第三方公司标注,需要一万人用十年的时间才能收集到有效的数据。由此可见,人工智能在小数据和数据孤岛问题上面临着严峻的形势。

其次,近年来人们对数据隐私保护的关切,导致大数据难用的困境雪上加霜。2018年欧盟出台了《通用数据保护条例》(General Data Protection Regulation,GDPR)来保护欧盟公民的数据隐私,违者会面临巨额罚款。该法案的很多规定都会给人工智能带来影响,尤其是在数据使用方面。比如,用户不仅可以拒绝贡献出自己的数据,还可以反悔并撤回已经提交的数据。由此可见,如果数据收集方不能给出让用户放心的隐私保护方法,数据不足的问题会成为人工智能发展的障碍。

即使用户同意贡献出数据,也必须保证数据不能离开收集方,这就对目前常见的多方合作训练模型的模式产生巨大冲击。例如,多家零售企业的数据无法联通形成大数据,因此每家公司只能用自己的小数据训练出效果比较差的模型。这也就是通常我们所说的“数据孤岛”问题。对隐私的关切使得数据之间像孤岛一样被分隔开,无法汇聚在一起产生更强大的作用。

总之,小数据与隐私关切这两大问题在“数据”这块基石上产生了裂痕,随时有可能让人工智能再次陷入低谷。

两大困境期待解决方案

事实上,目前已经有一些针对这两大困境的解决尝试方案。但是,这些方案都比较孤立,没有在真正意义上完全消除大数据使用的隐患。

针对数据质量低、数量少的问题,传统的解决方法是使用迁移学习。迁移学习,简言之,就是把在某个领域的数据或知识迁移到其他相似的领域,也就是让模型具有“举一反三”的能力。目前,在某些领域我们拥有充足的数据量,已经有训练结果比较成熟的模型,如果能把这些模型的能力“迁移”到数据量匮乏的领域,就能够解决数据质量低或标注不足的问题。目前一个成功的商业案例是第四范式公司为企业提供的车贷营销模型。由于车贷样本数量比较少,且缺乏标注,因此不易建模。但是微信上有大量小额贷款的数据,也可以建立效果很好的模型。因此,一种很好的解决方法是先根据小额贷款数据构建模型,之后将模型迁移到车贷问题上,这样就能够利用迁移学习在数据不足的情况下也能取得不错的效果。

显而易见,迁移学习的成果可以建立在多个数据拥有方合作的基础上。例如,在车贷的例子中,需要车贷公司与微信小额贷款合作才能实现模型在相近领域之间的迁移。然而,目前的隐私关切使直接的迁移学习应用不再有效,因为传统的迁移学习没有特别考虑隐私安全问题。在包括前面提到的GDPR等隐私法规的制约下,企业间的这种数据和模型间的合作将变得困难无比,一个数据匮乏领域的研究者可能根本没有办法通过合法的途径获得其他领域的数据或模型。

事实上,目前也有在隐私保护约束下让个人或企业之间联合训练模型从而打破数据孤岛壁垒的尝试性方法,被叫做“联邦学习”。它是由谷歌最早提出的一种使个人手机用户在原始数据不离开各自手机终端的基础上,联合训练一个公共模型的方法。具体而言,每个用户在本地的安卓手机上根据自己的隐私数据建立一个小模型,这个模型经过加密后上传到云端,云端在不解密的情况下把这些用户发来的小模型聚合成大模型。因为用户上传的模型是加密的,因此数据是安全的,用户的个人隐私得到了保护,同时云端通过聚合小模型实现了模型的联合训练。

我们的研究把联邦学习从谷歌简单的模型平均方法扩展到机构间的安全分布式联合建模,分为横向联邦学习与纵向联邦学习。横向联邦是针对谷歌用户这样的用户特征相同但是样本不同的场景,而纵向联邦则是针对用户样本重叠但特征不同的多机构合作建模场景。

然而,现实应用中面临的小数据问题,使得样本维度或特征维度至少有一者相同的数据少之又少。联邦学习虽然基本满足了GDPR关于隐私保护的要求,但是并没有解决小数据的问题。那么,有没有什么方法可以从根本上同时解决这两个问题,从而使大数据的使用变得不再困难呢?我们给出了一个可能的出路,即“联邦迁移学习”。

“联邦迁移学习”突破数据壁垒

为了同时解决小数据与隐私关切问题,我们首先提出了联邦迁移学习的技术方案。该方案不需要聚合或交换多方数据,能够保证在小数据上使用迁移学习建模时不泄露隐私,而使用联邦学习时知识可以迁移。

具体而言,我们考虑这样的场景,有多个数据拥有方,他们之间出于隐私保护的考虑不能够交换数据,同时各方数据集中的用户样本和用户特征重叠部分较少,即各自的样本数据较少并且数据不能聚合到一起。事实上,这样的场景在当前十分常见,因为现实中的数据很难满足样本或特征维度相同,而联邦迁移学习便是用来解决这类建模场景的一种通用方案。它通过迁移学习来解决数据规模小和标签样本少的问题,同时又能基于联邦学习框架来保护数据拥有者的隐私,最终实现了“鱼和熊掌兼得”的效果。

为了更好地阐述其具体流程,我们以两个数据拥有方的场景为例来简单介绍联邦迁移学习。假设有两家企业A和B要联合训练一个机器学习模型,他们分别拥有各自的用户数据,但是共有的用户比较少,同时两家企业位于不同领域,因此用户特征的交集也较少。出于保护用户隐私的考虑,A和B不能直接通过交换数据与迁移学习来训练模型。面对这样的小数据且需要隐私保护的训练场景,我们便可以使用联邦迁移学习方法来建模。

首先进行加密样本对齐,由于两家企业的用户部分仅有少量重合,故需要采用加密样本对齐的方法来确定共有用户。其次进行加密的迁移学习模型训练,即在迁移学习过程中通过加密传递计算的中间结果。这种方法可以同时适用于样本迁移、特征迁移与模型迁移。在整个训练过程中,A和B的数据均保存在本地,并且训练过程中的数据交换也不会导致隐私泄漏。最后是效果激励。

联邦迁移学习方法解决了为什么不同机构要加入到联邦中共同建模的问题。我们可以用一个永久数据记录机制(如区块链),来建立一个让参与方都满意的共识机制以估计各方的贡献,基于这个贡献奖励对联邦有作用的机构,从而激励更多数据拥有方加入到联邦中。

垂直领域实现技术落地

联邦迁移学习可以被简单地扩展到多方合作的情形,从而真正实现隐私保护下的小数据迁移学习。下面介绍两个案例来看联邦迁移学习技术如何与垂直领域结合发挥作用。

第一个例子是在金融领域的应用。金融行业对于数据的隐私和安全性十分看重,不同机构的数据无法被直接汇聚到一起训练模型,同时小数据的问题也一直困扰着金融行业。因此,借助联邦迁移学习来训练联合模型是一个不错的选择。

以智慧零售为例,该业务涉及到的特征主要有用户购买行为、用户个人偏好和产品特点这三部分,但这三部分数据很可能分散在三个不同的企业。比如说,银行拥有用户的购买行为数据、社交网站拥有用户的个人偏好数据、购物网站拥有产品数据。在这样的场景下数据壁垒很难打破,且三方数据通常是异构的,传统的机器学习模型无法直接在异构数据上进行学习,而联邦迁移学习正是解决这些问题的关键。首先,联邦学习的方法能够在保护各企业数据隐私的前提下联合训练模型。其次,迁移学习的方法能够解决小数据与异构数据的问题。这样,联邦迁移学习便突破了传统人工智能技术在金融领域的局限。

第二个例子是在医疗领域的应用。以IBM“沃森”系统为例,作为人工智能在医疗领域最著名的应用之一,最近却被曝光曾经在一次模拟中错误开出可能致死的药物。为何会产生这样的误诊呢?“沃森”使用的训练数据本应包括病症、基因序列、检测结果等数据特征,但是在实际中,这些数据无法全部获得,并且大量数据缺少标注。

数据的不足与标签的缺失导致机器学习模型训练效果不理想,这成为了目前智慧医疗的瓶颈之一。那如何突破这一瓶颈呢?如果所有的医疗机构能够将数据汇集起来进行迁移学习模型训练,那模型质量会有质的突破,但这一想法在现实中却由于医疗数据包含大量敏感信息而无法实现。应用联邦学习的方法能够在不聚集各医疗机构数据的情况下训练模型,同时,迁移学习可以解决标注数据缺失严重的问题,进一步提高模型效果。由此看来,联邦迁移学习在智慧医疗领域必将起到举足轻重的作用。

当前人工智能的发展在数据层面临着小数据与隐私关切两大严峻挑战。传统的迁移学习与新兴的联邦学习都无法同时完美解决这两大问题。联邦迁移学习的提出为打破数据屏障、建立统一的解决框架提供了可能性。它能够在不交换数据的情况下利用多方数据和迁移学习技术共同训练模型,即“数据不动、模型动”。这一方法在确保隐私和数据安全的情况下突破了数据壁垒,实现了共赢。期待未来联邦迁移学习能够在各个垂直领域落地开花,使人工智能带来的红利落实到社会的各个角落。

(原文刊载于《前沿科学》2019年第2期)

一切不能坚守的情谊,都不是真正的情谊。
虚假的情谊,当离开的那一刻,给你的是打击,也是清醒;风雨同在的友情,才值得珍惜和感恩。
光亮,可能驱不走内心的黑暗,然而真心的朋友,却能带你逃离生活的黑暗,给你温暖。
这个世界上,能够陪你挥霍享乐的人很多,然而愿意陪你跨过荆棘,走出低谷的人却屈指可数。
不是所有的人都会对你好,但是对我们好的人,我们一定要深记,滴水之恩当涌泉相报。
时间,是探测人心最好的测谎仪,它会让你看清一切。
生活中,懂得感恩的朋友,他是一道金灿灿的光,照见善良和美好。
然而那些见风使舵,假意虚伪的人,终究会让朋友疏远,寒心无念。
人生的路上离不开朋友,心里有一个值得你珍惜和记挂的朋友,是你的福气。
生命中我们会遇见很多形形色色的人,但是能够让你时常挂念的,却稀少。
之所以会挂念,因为他把真心安放在你的世界,给了你不尽的温暖。

1
离开了大学这所象牙塔,脱离了学生身份。

从来没有一次离开家这么难过,以前总是想着多去看看外面更广阔的世界;而离开大学真正走上社会,才发现家是最温暖的港湾,因为那有我最爱的人。

回去就要走上工作岗位,开始独居生活了
对自己3年的承诺悄悄记在心里
以此次旅行为起点开始新的生活 https://t.cn/z8A4qQ6


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 这不,前不久永... 近日,苏有朋在京举办了自己新作的首映发布会,台上有心如、鲁一、凯凯王红毯有《倚天》《还珠》来捧场~这边高圆圆一句“无忌哥哥加油”让多少瓜友
  • #每日一善[超话]#[微风]#阳光信用# [微风]#每日一善# 善良是一棵生机无穷的种子,只要你舍得播种,就会有你意想不到的甜果。善良是一束美丽的玫瑰,当你赠送
  • 不过庆幸的是打完今天22TES就解散了,(不夺冠就解散,希望可以说到做到)人生有梦,各自精彩,祝选手们也祝我。#TOP_ESPORTS[超话]#纪念一下我喜欢滔
  • 每位顾客都拥有一杯悦炒的永久求偿权,任何时间、任何地点,不满意,都可为您重新制作,这也有点太任性了吧~ ◼️据说老板还是个大帅哥,不知道是否单身哈哈~姐妹们可以
  • 如果你真的准备好领养一只小猫咪,那就请您认真看完下面这段话吧~ 养一只小猫咪就等于养了一个小孩。你要么找一个能让你过上好日子的男人,要么找一个你甘心情愿为
  • ●_●.好啦 不说这么多,愿我爱的怀柔少年永远澄澈,前途似星辰般明亮[心]最后,让goodbai小圆送上祝福吧[新鲜好柿]✨继续聊明年年运,2023年5月木星进
  • ' | 翻包记来啦~#夏日出逃计划# 夏天来啦,来看看美妆博主的日常爱用物都有哪些?毛孔粗大的姐妹一定要记得避开有皮脂的部分打高光哦~»唇釉一定要选成
  • 然而,我们正打算抄近路走去马路边的过程中,发现有三位小姐姐露营,除此之外,发现有两只可爱的小狗,好友是爱狗爱好者之人,看到修狗甚是开心,犹豫几秒过后便问主人,能
  • 南昌午餐·培根鸡蛋可颂三明治周六的雨后 吃了一个个大大的可颂三明治~太太太满足!这次尝试卤肥肠,[NO]不是我能接受的味道吃烤肉:永远爱吃的就那么几样吃螺蛳粉:
  • 有点在国外另立个小山头的意思,可能认为这样就不用被威廉凯特永远压着做千年老二了。谈谈奴仆宫有紫微星紫微在奴仆宫为闲宫,老板兼打工,多辛劳奔波,作事难遂,亦有奴欺
  • 不是每个离婚的女人都不好也不是每个都好!也是骗子,兄弟姐妹们切记。
  • 【咸鱼专用贴】大家可以在这里回波血或者出买多的、闲置的产品 评论里带上固定的格式商品+价格+咸鱼号 按照这个固定的格式可以提高效率,描述好基础信息就行,建议
  • #宝马##宝马i5##宝马5系#哈哈哈 想不到吧~暑假的时候苏苏要给他对象买内裤怂恿我给我未来的对象也买虽然没有对象但是我还是买了 因为打折~哈哈哈哈原价590
  • 正当粉丝还遗憾不能看到孟鹤堂和搭档周九良精彩演出的时候,“一哥”岳云鹏也转发了孟鹤堂的话,说自己也想说这件事情,自己也因为工作原因不能参加封箱演出了。以这次不演
  • 小时候喜欢的事里面肯定有一件就是逛文具店。小学的时候我发小家里就是开文具店的,不是那种很大的,但是我真的很喜欢在她家呆着,看那些文具。当时还不是超市这种自助式的
  • #熊猫守护者[超话]##阳光信用# [委屈]#日常# 人生真的有过多不能逆转的苦难,你要清楚人活着,就挺好,别一生都跟自己较劲,我们不清楚,生命中剩下的时光还会
  • 他躺过来,略带哭腔地问我是不是生气了,他说他只是去和高师吃个夜宵,他说本来想自己去,但是高师完事了找他,问他饿不饿,要请他吃,他说他要回我家见父母,花销大压力也
  • [并不简单]】昨天,青岛市大学生大地画活动在青岛世园会举行,大学生们以大地为画布,依靠精湛的画技和扎实的画功,用12副绘画作品呈现出了中国的二十四节气。据了解,
  • 年轻的妹纸,没有什么抗老需求的可以用一用,保湿做好了,皱纹都不怎么长的,参考我。我在维稳期用这一套产品真的太惊艳了,我的皮肤变嫩变滑了。
  • 晚年遇见灵魂伴侣、致力于难民儿童的救援关爱,既收获了真情,也把更多的爱无私奉献出去,命运终究还是眷顾这个精致女子,此生足矣。我们最终的目标是让14亿炎黄子孙都能