您的位置  > 互联网

联邦学习的系统构架与加密样本技术的研究方法和应用

联邦学习( )是一项新兴的人工智能基础技术。 它最早由于2016年提出,最初是用来解决手机终端用户本地更新模型的问题。 其设计目标是保证大数据交换过程中的信息交换。 在安全、保护终端数据和个人数据隐私、保证合法合规的前提下,多个参与者或者多个计算节点之间可以进行高效的机器学习。 其中,联邦学习中可以使用的机器学习算法不仅限于神经网络,还包括随机森林等重要算法。 联邦学习有望成为下一代人工智能协作算法和协作网络的基础。

联邦学习的系统架构

以涉及两个数据所有者(即企业A和B)的场景为例,介绍联邦学习的系统架构。 该架构可以扩展到涉及多个数据所有者的场景。 假设企业A和B想要共同训练一个机器学习模型,并且其业务系统分别有各自用户的相关数据。 另外,企业B还有模型需要预测的标签数据。 出于数据隐私保护和安全考虑,A和B不能直接交换数据,可以使用联邦学习系统来构建模型。 联邦学习系统架构由三部分组成,如图所示。

第一部分:加密样本对齐。 由于两家公司的用户群体并不完全重叠,系统在A、B不泄露各自数据、不暴露非公开数据的前提下,采用基于加密的用户样本对齐技术来确认双方的共享用户。 -重叠用户,从而将这些模型结合到用户的特征上。 第2部分:加密模型训练。 一旦确定了常见的用户组,数据就可以用于训练机器学习模型。 为了保证训练过程中数据的保密性,需要第三方合作者C进行加密训练。 以线性回归模型为例,训练过程可以分为以下4步(如图):

步骤1:协作者C将公钥分发给A和B,以加密训练过程中需要交换的数据。

步骤2:A和B之间以加密形式的交互用于计算梯度的中间结果。

步骤3:A和B根据加密后的梯度值进行计算,B根据其标签数据计算损失并将结果汇​​总到C。C通过汇总结果计算总梯度值并解密。

步骤4:C将解密后的梯度分别传回给A和B,A和B根据梯度更新各自模型的参数。

迭代上述步骤,直到损失函数收敛,从而完成整个训练过程。 在样本对齐和模型训练过程中,A和B各自的数据保留在本地,训练过程中的数据交互不会导致数据隐私泄露。 因此,双方能够借助联邦学习实现合作训练模式。

第三部分:效果动机。 联邦学习的一大特点是解决了不同机构为什么要加入联邦联合建模的问题。 即模型建立后,模型的效果将在实际应用中展现出来,并记录在上级的永久数据记录机制(如区块链)中。 提供更多数据的机构将会获得更好的模型效果,而模型效果取决于数据提供者对自己和他人的贡献。 这些模型的效果将分发给各个机构以反馈联邦机制,并继续鼓励更多机构加入这个数据联邦。 上述三部分的实现不仅考虑了隐私保护和多个机构之间联合建模的效果,还考虑使用共识机制来奖励贡献更多数据的机构。 因此,联邦学习是一种“闭环”的学习机制。

联邦学习的优势

(1)数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求;

(2)能够保证模型质量不受影响,不会出现负迁移,保证联邦模型优于分离的独立模型;

(三)参与者地位平等,能够实现公平合作;

(4)能够保证所有参与方在保持独立性的同时,能够进行信息和模型参数的加密交换,同时实现增长。

联邦学习分类

针对不同的数据集,联邦学习分为水平联邦学习( )、垂直联邦学习( )和联邦迁移学习( ,FmL)。

在水平联邦学习的情况下,当两个数据集的用户特征重叠较多且用户重叠较少时,我们对数据集进行水平分割(即用户维度),提取两个数据集具有相同特征的特征用户特征但不是相同的用户。 这部分数据用于训练。 这种方法称为水平联合学习。 例如,不同地区有两家银行。 他们的用户群体来自各自的地区,彼此之间很少有重叠。 但他们的业务非常相似,因此记录的用户特征是相同的。 此时,我们可以使用水平联邦学习来构建联合模型。 2016年,谷歌提出了针对手机模型更新的数据联合建模方案:当单个用户使用手机时,模型参数在本地不断更新并上传到云端,使得每个具有相同特征维度的数据拥有者建立联合模型。

垂直联邦学习:当两个数据集的用户重叠较多且用户特征重叠较少时,我们对数据集进行垂直分割(即特征维度),提取两侧用户相同但用户不同的数据集特性并不完全相同。 训练的部分数据。 这种方法称为垂直联合学习。 比如有两个不同的机构,一个是某地的银行,一个是同地的电商公司。 他们的用户群体很可能包括该地区的大部分居民,因此用户交集很大。 但由于银行记录了用户的支付行为和信用评级,而电商商店则保留了用户的浏览和购买历史,因此两者的用户特征交集较小。 垂直联邦学习以加密状态聚合这些不同的特征,以增强模型能力。 目前,逻辑回归模型、树结构模型、神经网络模型等多种机器学习模型已逐渐被证明能够建立在该联邦系统之上。

在联邦迁移学习中,当两个数据集中的用户和用户特征很少重叠时,我们不对数据进行分割,而是使用迁移学习来克服数据或标签不足的情况。 这种方法称为联合迁移学习。 例如,有两个不同的机构,一个是中国的银行,另一个是美国的电子商务公司。 由于地域限制,这两个机构的用户群体很少有重叠。 同时,由于机构类型不同,两者的数据特征仅部分重叠。 在这种情况下,为了进行有效的联邦学习,必须引入迁移学习来解决单边数据量小、标记样本少的问题,从而提高模型的效果。

联邦学习源码

1.

2.

参考

[1]。