讲座人:张立赛 博士生
题目:语言-视觉的表示与生成方法研究
时间:2月20日 17:00-18:00
地点:信息楼L329
讲座内容:
传统的图像修复方法只使用图像上下文作为推理先验,存在较大的局限性。本文提出一种根据描述性文本来补全图像的方法,将语言模态的引导引入图像修复模型。文本引导的图像修复方法的生成条件是文本语义和图像上下文语义的融合,并且需要首先提取文本中与缺失内容相关的语义。为了完成该任务,我们提出了一种文本引导的对偶注意力网络。我们首先设计了一种对偶多模态注意力机制,通过将文本和互补的两幅图像分别进行对比来提取关于损坏区域的明确语义信息;其次,我们应用图像-文本匹配损失来最大化生成的图像和文本的语义相似度。在COCO和CUB两个公开的数据集上的实验结果表明,本章所提出的文本指导的图像修复模型在定量和定性指标上都达到了图像修复方法的先进水平。通过对生成结果的进一步分析,我们证实模型修复的图像与引导文本的语义是一致的。最后我们对其进行了图像编辑功能的扩展,通过提供不同的描述来直接修改图像的内容。
讲座人简介:
张立赛,博士生,曾分别于哈尔滨工业大学威海校区、深圳校区获得学士学位、硕士学位。 2018年至今在哈尔滨工业大学 (深圳) 计算机科学与技术学院攻读博士学位,指导教师为陈清财教授。主要研究方向为跨模态生成、跨模态检索。