软件所提出具有跨融合框架理论支撑的多模态表示学习方法

文章来源:  |  发布时间:2026-02-14  |  【打印】 【关闭

  

近日,中国科学院软件研究所天基综合信息系统全国重点实验室研究团队基于推导的跨融合框架理论,提出一种新型的多模态表示学习方法。相关研究成果Supporting Multimodal Intermediate Fusion with Informatic Constraint and Distribution Coherence被机器学习领域国际顶级学术会议ICLR 2026接收。论文共同第一作者为博士生李懿和博士生宋飞,通讯作者为李江梦副研究员。

目前常见的多模态表示学习方法主要基于特征层级的中层融合与决策层级的晚期融合。尽管多模态表示学习方法已在实际应用中取得良好效果,但其有效性背后的理论支撑大多基于晚期融合框架,缺乏基于中层融合框架的理论分析。研究团队从经验和理论两方面进行动机分析,认为基于中层融合框架的多模态表示学习方法,具备学习到更多任务相关信息的潜力。

为此,研究团队首先从细粒度的维度视角重新审视中层融合与晚期融合这两种融合框架,并通过严格的理论推导证明,在特定约束条件下,中层融合优于晚期融合。进一步地,为深入探究基于中层融合框架的多模态表示学习方法的内在机制,研究团队在一般的K-Lipschitz连续性假设下推导了中层融合方法的泛化误差上界。通过分析该上界发现,消除模态间的分布不一致性能有效提升模型的泛化能力。

基于上述跨融合框架的理论推导,研究团队提出了一种新型的多模态表示学习方法Intermediate Fusion with Informatic Constraint and Distribution Coherence(IID)。该方法基于中层融合框架,包含信息约束模块和分布一致性模块两部分,分别用于实现跨融合框架理论推导中的特定约束条件并缓解模态间的分布不一致问题。

IID模型架构图

为验证所提方法的有效性,研究团队在MVSA-Single、MVSA-Multiple等多个公开多模态数据集上进行了系统实验。结果表明,IID在评估数据集上均取得优于现有基准模型的性能,验证了其方法设计的合理性与实际有效性。

IID在多模态数据集上的实验结果


论文链接:https://openreview.net/forum?id=5bxmmuRhO6