【光熙博士生学术论坛讲座】
讲座人:刘艺姝 博士生
题目:基于多空间协同去偏学习的医学跨模态视觉问答
时间:2025年12月8日9:30-10:30
地点:L1512
讲座内容:
视觉问答作为计算机视觉与自然语言处理交叉的重要研究方向,旨在使模型能够基于输入图像与自然语言问题,生成符合语义逻辑的答案。目前主流的视觉问答模型常常表现出明显的依赖语言偏见的倾向,该现象主要由虚假语义相关性与少数类崩溃引起的。为了应对上述挑战,本研究提出一种多空间协同去偏学习范式,主要包含欧式空间去偏学习策略和球面空间去偏学习策略,有效增强了模型对语义与答案类别之间关系的建模能力,从而显著提升了模型在复杂多变场景中的泛化与推理能力。其中,欧式空间去偏学习策略通过策略性地引入偏差示例及模态反例,着重于揭示欧氏空间中隐藏的先验关联以及模态和语义之间的复杂交互作用。此外,得益于无限对比和分布去偏学习机制,球面空间去偏学习策略使特征在角度流形上维持均匀分布,避免少数类表征塌缩并增强语义类别之间的几何可分性。实验结果表明,该方法在多个通用与医学视觉问答数据集上的表现均显著优于现有最先进的方法,验证了其有效性与泛化能力。