您的位置  > 互联网

联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题

联邦学习的概念

联邦机器学习(/),也称为联邦学习、联合学习、联盟学习。 联邦机器学习是一种机器学习框架,可以有效帮助多个组织进行数据使用和机器学习建模,同时满足用户隐私保护、数据安全和政府法规的要求。 联邦学习作为一种分布式机器学习范式,可以有效解决数据孤岛问题,让参与者在不共享数据的情况下共同建模,可以从技术上打破数据孤岛,实现AI协作。 谷歌于2016年提出针对移动端的联邦学习。微众银行AI团队从金融行业实践出发,聚焦跨机构、跨组织的大数据合作场景。 首次提出“联邦迁移学习”的解决方案来整合迁移学习。 与联邦学习相结合。 据杨强教授在“联邦学习研讨会”上的介绍,联邦迁移学习使联邦学习更加通用,可以不受领域或算法限制,在不同数据结构、不同机构中发挥作用。 它还具有无损模型质量和隐私保护的特点。 、保证数据安全的优点。

联邦学习定义了一种机器学习框架,在该框架下设计虚拟模型来解决不同数据所有者之间的协作问题,而无需交换数据。 虚拟模型是各方聚合数据的最优模型,各区域基于该模型服务于本地目标。 联邦学习要求这种建模结果要无限接近传统模型,即将多个数据所有者的数据集中到一个地方进行建模的结果。 在联邦机制下,每个参与者具有相同的身份和地位,可以建立共享的数据策略。 由于数据没有传输,因此用户隐私不会受到损害,也不会影响数据合规性。 为了保护数据隐私并满足法律合规要求。

联邦学习由三个主要组成部分:数据源、联邦学习系统和用户。 三者之间的关系如图所示。 在联邦学习系统下,各个数据源进行数据预处理,共同建立自己的学习模型,并将输出结果反馈给用户。

联邦学习的分类

根据参与方数据源分布的不同,联邦学习可以分为三类:水平联邦学习、垂直联邦学习和联邦迁移学习。

横向联邦学习

在两个数据集用户特征重叠较多、用户重叠较少的情况下,我们对数据集进行水平分割(即用户维度),提取数据中双方用户特征为的部分相同,但用户不完全相同。 火车。 这种方法称为水平联邦学习。

例如,业务相同但位于不同地区的两家公司,各自地区的用户群体非常小。 但他们的业务非常相似,因此记录的用户特征是相同的。 此时,可以利用横向联邦学习来构建联合模型。

水平联邦学习中的多方联合训练方法与分布式机器学习有部分相似( )。 分布式机器学习涉及很多方面,包括机器学习中训练数据的分布式存储、计算任务的分布式运行、模型结果的分布式发布等。参数服务器是分布式机器学习的典型例子。 参数服务器作为加速机器学习模型训练过程的工具,将数据存储在分布式工作节点上,通过中央调度节点分配数据分布和计算资源,从而更高效地获得最终的训练模型。 。 对于联邦学习来说,首先,水平联邦学习中的工作节点代表了模型训练的数据所有者。 它对本地数据具有完全的自主权,可以自主决定何时加入联邦学习进行建模。 与参数服务器中相比,中心节点始终占据主导地位,因此联邦学习面临更加复杂的学习环境; 其次,联邦学习在模型训练过程中强调数据所有者的数据隐私保护,这是保护数据隐私的有效措施,可以更好地应对未来日益严格的数据隐私和数据安全监管环境。

垂直联邦学习

当两个数据集的用户重叠较多但用户特征重叠较少时,我们将数据集进行垂直分割(即特征维度),提取两侧用户相同但用户特征不同的数据。 火车。 这种方法称为垂直联合学习。

比如有两个不同的机构,一个是某地的银行,一个是同地的电商公司。 他们的用户群体很可能包括该地区的大部分居民,因此用户交集很大。 但由于银行记录了用户的支付行为和信用评级,而电商商店则保存了用户的浏览和购买历史,因此两者的用户特征交集较小。 垂直联邦学习是将这些不同特征以加密状态聚合起来以增强模型能力的联邦学习。 目前,逻辑回归、决策树等机器学习模型都是在垂直联邦学习系统的框架下构建的。

联合迁移学习

在两个数据集中用户和用户特征很少重叠的情况下,我们不对数据进行分割,而是可以使用迁移学习来克服数据或标签不足的情况。 这种方法称为联合迁移学习。

例如,有两个不同的机构,一个是中国的银行,另一个是美国的电子商务公司。 由于地域限制,这两个机构的用户群体很少有重叠。 同时,由于机构类型不同,两者的数据特征仅部分重叠。 在这种情况下,为了进行有效的联邦学习,必须引入迁移学习来解决单边数据量小、标记样本少的问题,从而提高模型的效果。

下一节我们将详细介绍联邦学习的过程