学术活动

当前位置: 首页 > 学术活动 > 正文

我校人工智能与软件工程学院大数据与人工智能团队在顶级国际会议IJCAI上发表最新研究成果

内容来源: 日期: 2025-05-02 10:47 浏览次数:

本网讯(通讯员 黄鑫 张君 郭康达 )近日,我校人工智能与软件工程学院大数据与人工智能团队与北京大学人工智能学院的合作研究成果《Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models》在人工智能领域顶级学术会议IJCAI 2025(The 34th International Joint Conference on Artificial Intelligence)录用。论文第一作者为我校黄鑫博士,通讯作者为我校王亚博士,南阳师范学院为第一通讯单位。

IJCAI 会议是由国际人工智能联合会主办,是人工智能领域的顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。IJCAI 2025将于2025年8月16日在加拿大蒙特利尔召开。本届会议共收到 5404 篇有效投稿,接收率仅有 19.3%。

在多模态学习领域,视觉-语言大模型具有重要的基础性地位。然而,这类模型在处理需要准确捕捉图像-文本细微语义差异的组合推理(Compositional Reasoning)任务时面临瓶颈。现有方法大多通过生成文本负样本的方式对模型进行直接微调,忽视了图像负样本的重要信息,从而限制了模型的整体性能。此外,现有方法在微调过程中未针对不同难度的样本设计相应的学习策略,导致模型在处理语义复杂的数据时表现不佳。针对上述问题,本文提出基于视觉扰动与自适应难负样本对比学习的组合推理方法。一方面通过向量计算获取文本正负样本之间的语义偏差,并利用该偏差扰动原始图像,从而生成与文本负样本语义一致的视觉负样本特征,以增强视觉编码器的整体性能;另一方面构建自适应的难负样本对比学习框架,通过设计动态边界对比损失,根据样本难度自适应地调整学习策略,针对性地提升了模型对困难样本的辨识能力。在ARO、VALSE及SugarCrepe三个评测基准上的实验结果表明该方法的性能优势。

人工智能与软件工程学院秉承产-学-研协同育人理念,构建了以“三色嵌入”为特色的本科教育教学体系。此次成果的取得,体现了学院在视觉-语言模型组合推理方向的持续探索与技术积累和育人成效。以上研究工作得到了河南省科技攻关计划(No.242102211019)等项目的资助。