本网讯(通讯员 黄鑫 张淼)近日,人工智能学院大数据与人工智能团队与北京大学、华北电力大学的合作研究成果《Adaptive Co-operative Prompting and Uncertainty-Aware Implicit Knowledge Enhancement for Cross-Modal Retrieval 》被国际期刊ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)录用。论文第一作者为我校黄鑫博士,第二作者为我校硕士研究生王世龙,通讯作者为我校李菁菁博士,南阳师范学院为第一通讯单位。TOMM是国际计算机学会(ACM)出版的 Transactions 系列期刊,其JCR分区为Q1,是多媒体领域的顶级国际期刊,也是中国计算机学会(CCF)推荐的B类国际期刊。

成果概述:
跨模态检索是实现多源异构数据统一建模与语义对齐的核心技术之一。然而,在真实应用场景中,跨模态数据面临模态间信息不对称与模态内分布多样性等关键挑战,易导致语义噪声引入及对齐偏差,制约检索性能的进一步提升。针对上述问题,本文提出了一种自适应协同提示与不确定性感知隐式知识增强的跨模态检索方法(ACKE),通过引入生成式多模态大模型的隐式知识与实例感知的协同提示机制,提升跨模态语义建模的精度与鲁棒性。具体地,为缓解模态间信息不对称,提出不确定性感知潜能激发策略,利用生成式多模态大模型从多视角生成补充性文本描述,并引入Dempster–Shafer 证据理论对生成语义不确定性进行建模与加权,从而降低语义噪声干扰。针对模态内分布多样性问题,提出自适应协同提示策略,通过构建可学习的提示池,动态选择实例相关的视觉提示,并映射为文本提示以实现跨模态协同引导。在 Flickr30K 与 MS-COCO 等主流数据集上的实验结果表明,该方法在复杂场景下的检索效果显著优于现有方法,验证了其在跨模态语义对齐上的有效性。上述工作得到了国家自然科学基金、教育部人文社科项目的支持。