欢迎访问哈尔滨工业大学新闻网!今天是
当前位置:首页  最新发布

最新发布

哈工大赵悦教授团队在CLIP细粒度对齐研究领域取得重要进展

2026年04月06日 新闻网 浏览次数:13

哈工大全媒体(商艳凯 刘玉菡/文 航天学院/图)近日,我校航天学院赵悦教授团队在CLIP细粒度对齐技术研究领域取得重要进展。研究成果以《MSG-CLIP:基于多模态场景图对齐增强 CLIP 的细粒度结构关联学习能力》(MSG-CLIP: Enhancing CLIP’s ability to learn fine-grained structuralassociations through multi-modal scene graph alignment)为题发表于模式识别与人工智能领域国际学术期刊《模式识别》(Pattern Recognition)。该研究成果为大幅提升跨模态人工智能模型的图文精准理解能力提供了关键技术支撑。

CLIP作为跨模态预训练模型的核心代表,凭借强大的图文语义对齐能力,已成为图文检索、视觉问答、图文生成等人工智能核心领域的关键基础技术。而细粒度对齐作为CLIP精准“认识”图文含义的核心环节,长期存在对齐精度低、结构学习能力不足等痛点,成为制约CLIP在高端视觉理解场景落地的关键瓶颈。相较于传统CLIP模型仅能实现粗粒度语义匹配,细粒度对齐技术的突破是实现AI对图文深层含义精准解读的核心前提。

赵悦教授团队针对相关技术痛点开展了系统性研究,创新提出MSG-CLIP框架,通过多模态场景图对齐机制,实现实体级模态对齐与三元组级关系对齐的双重细粒度精准匹配,从根源上解决了传统CLIP在细粒度对齐中结构信息缺失、匹配误差较大等核心缺陷。实验结果表明,MSG-CLIP在不增加模型参数量的前提下,于权威基准数据集VG-Attribution较基线模型取得11.2%的大幅度提升、于权威基准数据集VG-Relation上性能也有2.5%的可观提升。

 MSG-CLIP整体框架示意图

哈工大为论文第一署名单位,航天学院博士生吕笑天为论文第一作者,赵悦教授为论文通讯作者。该研究得到国家自然科学基金、黑龙江省人工智能重点研发计划等项目的支持。

论文链接:

https://www.sciencedirect.com/science/article/abs/pii/S0031320325014578?via%3Dihub=


责任编辑:刘培香

审核:宋玲 李守斌