您的位置  > 互联网

(机器之心专栏)基于MoE的新型稀疏LVLM框架

对于大型视觉语言模型(LVLM),扩展模型可以有效提高模型性能。 然而,增加参数大小会显着增加训练和推理成本,因为计算中的每个标记都会激活所有模型参数。

基于此,北京大学、中山大学等机构的研究人员联合提出了一种新颖的LVLM训练策略——MoE-。 MoE-能够构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决与多模态学习和模型稀疏性相关的性能下降问题。 本研究还提出了一种基于MoE的新型稀疏LVLM架构——MoE-LLaVA框架。 该框架在部署期间通过路由算法仅激活前 k 个专家 (),其余专家保持不活动 ()。

MoE-LLaVA只有3B个稀疏激活参数,但其在各种视觉理解数据集上的性能相当于LLaVA-1.5-7B,甚至在物体错觉基准测试中超越了LLaVA-1.5-13B。 通过 MoE-LLaVA,本研究旨在为稀疏 LVLM 建立基准,并为未来研究开发更高效、更有效的多模态学习系统提供有价值的见解。 MoE-LLaVA 团队已开放所有数据、代码和模型。

图1 MoE-LLaVA与其他LVLM的幻觉性能比较

方法介绍

MoE-LLaVA 采用三阶段培训策略。

图2 MoE-的流程图

如图 2 所示,视觉编码器 ( ) 处理输入图像以获得视觉标记序列。 投影层用于将视觉标记映射到 LLM 可接受的维度。 类似地,与图像配对的文本通过词嵌入层进行投影以获得序列文本标记。

第一阶段:如图2所示,第一阶段的目标是使视觉令牌适应LLM,并赋予LLM理解图片中实体的能力。 MoE-LLaVA 使用 MLP 将图像标记投影到 LLM 的输入域中,这意味着小图像块被 LLM 视为伪文本标记。 在这个阶段,LLM被训练来描述图像并理解更高层次的图像语义。 MoE层现阶段不会应用于LVLM。

图3 更具体的训练框架和训练策略

第二阶段:利用多模态指令数据进行微调是提高大模型能力和可控性的关键技术,现阶段LLM调整为具有多模态理解能力的LVLM。 现阶段研究增加了更复杂的指令,包括图片逻辑推理、文本识别等高级任务,这要求模型具有更强的多模态理解能力。 一般来说,密集模型的LVLM此时就训练完成了。 然而,研究团队发现,将LLM转换为LVLM并同时稀疏模型具有挑战性。 因此,MoE-LLaVA将使用第二阶段的权重作为第三阶段的初始化,以降低稀疏模型学习的难度。

第3阶段:MoE-LLaVA复制多个FFN副本作为专家集的初始化权重。 当视觉token和文本token输入MoE层时,会计算每个token与专家的匹配权重,然后将每个token发送给top-k最匹配的专家进行处理,最后加权计算根据重量计算。 并汇总为输出。 当top-k专家被激活时,其余专家保持不活动状态,该模型构成了具有无限可能的稀疏路径的MoE-LLaVA。

实验

如图4所示,由于MoE-LLaVA是第一个基于LVLM配备soft的稀疏模型,因此本研究将之前的模型总结为密集模型。 研究团队验证了MoE-LLaVA在5个图像问答上的性能,并报告了激活的参数量和图像分辨率。 与SOTA方法LLaVA-1.5相比,MoE-LLaVA-2.7B×4表现出了很强的图像理解能力,在5上性能非常接近LLaVA-1.5。其中,MoE-LLaVA使用3.6B稀疏激活参数,超过LLaVA-1.5-7B 在 SQAI 上上涨 1.9%。 值得注意的是,由于MoE-LLaVA的稀疏结构,只需要2.6B激活参数就可以完全超过-80B。

图 4 MoE-LLaVA 在 9 上的性能

此外,研究团队还关注了最近的小型视觉语言模型-V,MoE-LLaVA-1.8B×4,在可比较的激活参数下,其分别超过了GQA和-V 27.5%和10%,这标志着MoE -LLaVA 对自然视觉的强大理解。

为了更全面地验证MoE-LLaVA的多模态理解能力,本研究在4上评估了模型性能。它是验证模型是否可以进行自然语言问答的工具包。 通常答案是开放式的,没有固定的模板。 如图 4 所示,MoE-LLaVA-1.8B×4 的性能优于使用更大图像分辨率的 Qwen-VL。 这些结果表明,稀疏模型 MoE-LLaVA 可以实现与激活参数较少的密集模型相当甚至超过的性能。

图5 MoE-LLaVA在幻觉物体检测上的性能评估

本研究使用 POPE 评估来验证 MoE-LLaVA 的物体错觉。 结果如图5所示。MoE-LLaVA表现出最好的性能,这意味着MoE-LLaVA倾向于生成与给定图像一致的对象。 具体来说,MoE-LLaVA-1.8B×4 的激活参数为 2.2B,超过了 LLaVA。 此外,研究团队观察到MoE-LLaVA的“是”比例相对均衡,这表明稀疏模型MoE-LLaVA可以根据问题做出正确的反馈。

图 6 专家负载可视化

图 6 显示了 MoE-LLaVA-2.7B×4-Top2 上的专家负载。 总体而言,在训练初始化期间,所有 MoE 层专家的负载相对均衡。 然而,随着模型逐渐变得稀疏,第 17 至 27 层专家的负载突然增加,甚至接管了几乎所有代币。 对于浅层5-11,专家2、3、4主要是一起工作。 值得注意的是,专家1几乎只在第1-3层上工作,随着模型变深,专家1逐渐退出工作。 因此,MoE-LLaVA 专家学会了一种特定的模式,使专家能够按照一定的规则进行分工。

图 7 模态分布可视化

图7显示了不同专家的模态分布。 本研究发现文本和图像的路由分布非常相似。 例如,当专家3在第17-27层努力工作时,其处理的文本和图像的比例是相似的。 这表明 MoE-LLaVA 对模态没有明显的偏好。

该研究还观察了代币级别专家的行为,并跟踪稀疏网络中所有代币在下游任务上的轨迹。 对于文本和图像的所有激活路径,本研究使用PCA降维以获得主要的10条路径,如图8所示。研究团队发现,对于未见过的文本标记或图像标记,MoE-LLaVA总是更倾向于调度专家2和3来处理模型的深度。 专家 1 和 4 倾向于处理初始化的标记。 这些结果可以帮助我们更好地理解稀疏模型在多模态学习中的行为并探索未知的可能性。

图8 激活途径的可视化