您的位置  > 互联网

CVPR2023论文:神经网络开发到100%会发生什么?

在电影中,随着女主角露西脑力的逐渐发展,她获得了以下能力:在

电影的最后,女主角逐渐消失,化为纯粹的能量形式,最终消失在宇宙中,与宇宙和时间融为一体。人类超体的实现,就是为了获得无限价值而与外界联系的能力。如果将这个想法转移到神经网络领域,如果能够与整个网络建立连接,也可以实现网络超体,理论上将获得无边界预测能力。

也就是说,物理网络

将不可避免地限制网络性能的增长,目标网络将连接到Model Zoo,网络将不再具有物理实体,而是建立网络之间连接的超体形式。

上图:超体网络和物理网络的区别。超体网络没有实体,是网络之间的一种通信形式

本文的 CVPR 2023 论文“”探讨了这个网络超体的想法。在本文中,新加坡国立大学的LV实验室提出了一种新的网络克隆技术。

01 问题定义

在本文中,作者提到,利用这种网络克隆技术实现网络非物质化可以带来以下优势:

超体网络的实现是基于快速扩展的Model Zoo,并且有大量的预训练模型可用。因此,对于任何任务 T,我们总是可以找到一个或多个模型,以便这些具有现有模型的任务可以组合成所需的任务。即:

(选择了三个网络进行连接)。

如上图所示,对于任务T,为了构建相应的超体网络M_c,提出了如下构建框架:

综上所述,本文提出的构建网络超体所需的网络克隆技术可以表示为:

其中 M_s 表示一组校正网络,因此网络超体的连接形式是本体网络加上一个或多个校正网络,而网络克隆

技术就是克隆校正网络所需的部分,并将其嵌入到本体网络中。

具体而言,本文提出的网络克隆框架包括以下两个技术要点:

对于具有 P 校正网络的克隆,第一个技术点是将关键部分定位为局部 (∙)。由于修复网络可能包含与任务集 T 无关的任务信息,因此定位局部关键部分 (∙) 的目标是定位修复网络中与任务 T⋂T_s 相关的部分,定位参数用 M^ρ 表示,实现细节在第 2.1 小节中给出。第二个技术点是网络模块嵌入 (∙),它需要选择适当的网络嵌入点 R^ρ 来嵌入所有修正后的网络,实现细节在第 2.2 小节中给出。

02 方法概述

在网络克隆的方法中,为了简化描述,我们设置了校正网络的数量P=1(因此省略了校正网络的上标ρ),即我们连接一个本体网络和一个校正网络,构建所需的超体网络。

如上所述,网络克隆包括关键部件定位和网络模块嵌入。在这里,我们介绍了一个中间迁移模块M_f以帮助理解。即网络克隆技术定位校正网络中的关键部分,形成迁移模块M_f,然后通过软连接将迁移模块嵌入到本体网络M_t中。因此,网络克隆技术的目标是定位和嵌入具有可移植性和本地保真度的迁移模块。

2.1 网络关键部分的定位网络

关键位置的目标是学习选择函数 M,此处将其定义为作用于网络每一层的掩码。此时的迁移模块可以表示为:

在上面的等式中,我们将修改后的网络M_s表示为 L 层,每层表示为

。众所周知,迁移模块的提取不会对修复网络进行任何修改。

为了获得合适的迁移模块M_f,我们找到了修复网络M_s中对最终预测结果贡献最大的显式部分。以前,鉴于神经网络的黑盒性质,以及我们只需要部分网络预测结果的事实,我们使用 LIME 来拟合所需任务的修改后的网络的局部建模(详见论文正文)。

使用局部建模结果

其中 D_t 是预测所需部分的训练数据集(小于原始网络的训练集)。

因此,

选择函数 M 可以通过以下目标函数进行优化:

在此公式中,定位的关键部分拟合局部建模的 G。

2.2 网络模块嵌入

在修复网络中定位迁移模块M_f时,选择性函数 M 用于直接从M_s中提取,而无需修改其权重。下一步是决定将迁移模块M_f嵌入本体网络M_t中的位置,以获得最佳克隆性能。

网络模块的嵌入由位置参数 R 控制。遵循大多数模型重用设置,网络克隆将本体模型的前几层保留为通用特征提取器,并且网络嵌入过程被简化为找到最佳嵌入位置(即,将迁移模块M_f嵌入 R 层)。查找嵌入的过程可以表示为:

有关公式的详细说明,请参阅正文。通常,基于搜索的嵌入包括以下要点:

03 网络克隆技术的实际应用

本文提出的网络克隆技术的核心是建立预训练网络之间的连接路径,不需要对预训练网络的参数进行任何修改,可以作为构建网络超体的关键技术,也可以灵活地应用于各种实际场景。

场景 1:网络克隆技术使在线使用 Model Zoo 成为可能。在某些资源有限的情况下,用户可以灵活地利用在线模型动物园,而无需将预训练网络下载到其本地位置。

请注意,克隆的模型由

确定,其中M_t和M_s在整个过程中是固定和恒定的。模型克隆不会对预训练模型进行任何更改,也不会引入新模型。模型克隆使得使用 Model Zoo 中的任意功能组合成为可能,这也有助于维护 Model Zoo 的良好生态系统,因为使用 M 和 R 建立连接是一个简单的掩码和定位操作,很容易撤消。因此,所提出的网络克隆技术支持建立可持续的Model Zoo在线推理平台。

场景二:网络克隆生成的网络具有更好的信息传输形式。通过网络传输时,该技术可以减少传输延迟和丢失。

在网络传输方面,我们只需要传输集合

,结合公共模型动物园,允许接收器从原始网络中恢复。与整个克隆网络相比

非常小,因此可以减少传输延迟。如果 A 和 F_c 仍然有一些传输损耗,接收器可以通过对数据集进行微调来轻松修复它。因此,网络克隆为高效传输提供了一种新的网络形式。

04 实验结果

对分类任务进行了实验验证。为了评估迁移模块的局部性能表征能力,我们引入了条件相似度度量:

其中 (∙) 表示余弦相似度。

MNIST、CIFAR-10的实验结果

、CIFAR-100和Tiny-如上表所示,可以看出,通过网络克隆(PNC)获得的模型的性能提升最为显著。整个网络的微调(PNC-F)不会提高网络的性能,反而会增加模型的偏差。

除此之外,我们还评估了迁移模块的质量(如上图所示)。从图(左)可以看出,从每个子集中学习到的每个函数都或多或少是相关的,这表明从校正网络中提取和定位局部函数的重要性。对于迁移模块,我们计算它们的相似性模拟 (∙)。图(右)显示迁移模块与待克隆的子数据集具有较高的相似性,其与子数据集其余部分的关系被削弱(非对角线区域的颜色比源网络的矩阵浅)。因此,可以得出结论,迁移模块成功地模拟了待克隆任务集的局部性能,证明了定位策略的正确性。

05 总结

在本文中,我们研究了一种新的知识转移任务,称为部分网络克隆(PNC),它以复制粘贴的方式从校正网络克隆参数模块,并将其嵌入到本体网络中。与以前依赖于更新网络参数的知识转移设置不同,我们的方法保证了所有预训练模型的参数保持不变。PNC技术的核心是网络关键部分的同步定位和便携式模块的嵌入,这两个步骤是相辅相成的。

我们在多个数据集上展示了我们的方法在准确性和可转移性指标方面的出色结果。