作者 | 刘瑞
审校 | 蔡芳芳
论文题目: VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation
作者单位: 北京航空航天大学 & 北京邮电大学
参考代码: https://github.com/muhhpu/VBF
痛点:确定性融合的
“不确定性”危机
多模态视频推荐系统在捕捉用户兴趣时,需要高效整合视频的视觉、听觉和文本特征。然而,现有的主流方法(如基于注意力机制或图神经网络的确定性融合方法 )面临着一个根本性的挑战:它们倾向于为给定的输入计算一个单一的、最优的权重向量,将多模态融合视为寻找“全局唯一最优解”的优化问题 。
这种“点估计”的策略,在面对真实世界短视频生态中的三大“不确定性”时 ,显得尤为脆弱 :
范式革新:VBF++ 将融合从
“点估计”升级为“分布建模”
近日,北京航空航天大学和北京邮电大学联合提出了一种全新的概率化框架—VBF++(Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement)。
VBF++ 的核心思想是将多模态融合过程重新表述为一个变分推理问题,成功将融合范式从传统的“点估计”转变为更具鲁棒性的“分布建模”范式。
该框架认为:每个视频 Vi 关联一个潜在的随机融合策略变量 Zi,通过捕捉 Zi 的随机性,模型能够量化融合权重的可信度,保留多种可能的融合解释。
VBF++ 的整体框架(图 1)由三大关键组件构成,完美解决了上述挑战:
图 1 VBF++ 的分层概率模型框架。包含上下文感知先验、变分后验、动态融合网络及对抗优化模块。
VBF++ 三大核心创新点深度解析
结构化先验:让模型“见微知著”
为了解决简单高斯先验的局限性,VBF++ 设计了一个可学习的混合先验机制。
它不是简单地假设所有视频都一样,而是根据视频的语义类别(如动作片、音乐片、纪录片等),动态调整融合策略的先验分布。模型将视频划分为
个语义簇,并为每个簇学习特定的先验分布中心。
图 2 训练前后融合策略的 t-SNE 可视化。训练后策略自动聚类成有意义的语义群组。
效果验证:训练后的策略在潜在空间中自动聚类成明显的语义群组(见图 2),且这种聚类与视频内容高度一致(见图 3):
图 3 学习融合策略与后验不确定性分析。(a) 模态权重分布具有语义适应性。(b) 后验不确定性分析表明,内容模糊的视频具有更高的不确定性。
RAR:用对抗学习对齐推荐目标
这是 VBF++ 解决“目标错位”的核心利器。
传统的 ELBO 损失侧重重构,VBF++ 引入了 RAR (Recommendation-Guided Adversarial Refinement) 范式:
简而言之,RAR 机制显式地将变分学习导向了推荐排序目标,确保了模型在保持多样性的同时,生成的策略是真正“好用”的。
元学习:应对冷启动与快速适应
为了适应快速变化的短视频环境和跨域推荐,VBF++ 集成了元学习器(Meta-Learner)。该模块利用 MAML 思想,通过梯度更新快速调整模型参数θ,实现对新内容和新领域的快速适应,有效解决了新内容的冷启动问题。
实验结果:刷新 SOTA,
兼顾多样性与准确性
实验与结果
VBF++ 在 MovieLens-10M、TikTok 和 Kuaishou 三个真实世界数据集上进行了全面评估,如表 1。
表 1 VBF++ 与现有 SOTA 方法在三个数据集上的性能对比
策略空间可视化:确定性 vs. 概率性
VBF++ 最大的优势在于保持推荐准确性的同时,量化了融合策略的可信度。图 4 展示了传统注意力机制与 VBF++ 在对同一视频进行 100 次推理时,其融合策略在潜在空间中的分布差异:
图 4 传统注意力机制(左)与 VBF++(右)在同一输入下的融合策略分布对比。颜色梯度表示策略质量。
总结与展望
VBF++ 成功地为多模态视频推荐系统引入了不确定性建模,实现了从确定性点估计到变分贝叶斯融合的范式转变。通过三大创新模块——上下文感知先验、推荐引导的对抗优化和元学习,VBF++ 不仅刷新了 SOTA 性能,更生成了具有可解释性和语义意义的融合策略。这项工作为处理多模态数据中的不确定性和噪声提供了坚实的理论基础和有效的解决方案。


