西电主页 English 宣传部 开云app串关
开云登录入口官网
表格等宽内容时,请左右滑动 <>
【学在西电】西电学子荣获全球计算机视觉顶级会议CVPR 2025竞赛16项冠亚季军
时间:2025-06-13 18:29:35来源:人工智能学院点击:

西电新闻网讯(通讯员 张柯欣 杨育婷)6月11日至6月15日,2025IEEE国际计算机视觉与模式识别会议在美国进行,学校人工智能学院参赛队伍在焦李成、刘芳、马文萍、杨淑媛教授,李玲玲、刘旭、陈璞花副教授,李硕、杨育婷、孙龙、马梦茹博士以及团队博士生张柯欣、路小强、赵嘉璇的共同指导下,斩获16项冠亚季军奖项。团队针对图像分类与识别、视频理解和跨模态检索等挑战提出了一系列创新性的解决方案。获奖队伍均收到竞赛主办方的邀请,在大会研讨会上分享展示获奖方案。本次竞赛由国家自然科学基金重点、联合项目,教育部创新团队,国家学科创新引智基地等项目支持。

“CVPR 2025农业视觉奖挑战赛:农业模式解析”聚焦于遥感航拍影像中的农作物受灾类型检测,涵盖干旱、洪涝、营养不良、杂草等8类典型情形。由博士研究生路小强、2023级硕士研究生车晨悦、刘欣雨组成的学生队伍获得该赛题冠军,由2023级硕士研究生祖岩岩、柴金铭、张延昭组成的学生队伍获得同赛题季军。

imagepng

(依次为路小强、车晨悦、刘欣雨)

imagepng

(依次为祖岩岩、柴金铭、张延昭)

冠军队伍依托焦李成教授团队自主研发的“悟瞳”遥感多任务基础模型,创新性地融合类自适应重均衡采样、结构感知优化损失与统一孪生多模态编码器,结合卷积、Transformer和Mamba解码器,强化语义解码与模态互补,通过大规模半监督多模态预训练和参数高效微调,配合轻量级多尺度混合专家模块,实现了灾害场景下细粒度知识迁移与识别,显著提升了遥感大场景中稀疏目标多粒度识别能力,获得CVPR 2025 Agriculture-Vision大赛冠军。该方案验证了“悟瞳”模型在农业灾害监测、农情监测及精准农业中的应用潜力,未来将拓展至城市管理、环境监测与自然灾害预警,推动智慧遥感技术的全面发展。

imagepng

“悟瞳”遥感基础模型识别结果展示

“CVPR 2025 VizWiz 零样本图像分类挑战”聚焦提升图像分类模型在零样本场景下的泛化能力,要求模型准确识别由盲人拍摄、视角独特且质量多变的VizWiz数据集中200个目标类别。由2024级硕士研究生杨蘅、卢连平和杨育婷博士组成的参赛队伍获得该赛题冠军。

imagepng

(依次为杨蘅、卢连平、杨育婷)

冠军队伍深入分析发现DFNSB-CLIP擅长细粒度语义解析、SigLIP-v1抗噪能力强,基于此提出融合异构视觉-文本大模型的方案。通过动态权重投票实现优势互补,特征对齐缓解语义偏移,温度缩放融合优化置信输出。该方案在VizWiz测试集上达67.48%准确率,较官方基线提升24.63%,有效应对语义偏移、数据稀缺与图像劣化等挑战,展现出强大的实用潜力。

“CVPR 2025 复杂场景视频目标分割挑战(MOSE)”聚焦于视频中的像素级场景理解,推动模型精准识别动态内容中的目标类别与语义掩码。赛道评估模型应对遮挡、目标消失重现等复杂动态场景的鲁棒性,助力视频分割技术迈向真实应用。由2024级硕士研究生宋克欢、谢兴霖和孙龙博士组成的参赛队伍获得该赛题冠军;由2024级硕士研究生赵霖楠、曹旭强组成的参赛队伍获得该赛题亚军;由博士研究生王梦娇、张君沛组成的参赛队伍获得该赛题季军。

imagepng

(依次为宋克欢、谢兴霖、孙龙)

冠军队伍在深入分析数据集后发现,单一模型难以在复杂多变的场景中持续保持优异性能。为此,队伍构建了自适应伪标签引导的模型优化流程,并针对MOSE数据集对SAM2以及无监督模型TMO进行了定向微调。该方案有效突破了单一模型在全场景适配性不足以及多模型协同效率低的技术瓶颈,显著提升了复杂视频分割与目标跟踪任务的处理精度。

“CVPR 2025 EPIC-KITCHENS-100 多实例检索挑战”聚焦视频与文本间的跨模态检索能力,涵盖视频检索文本(V→T)与文本检索视频(T→V)两项任务。由2024级硕士研究生“贺晶、王一晴”和马梦茹博士组成的参赛队伍获得该赛题冠军。

imagepng

(依次为贺晶、王一晴、马梦茹)

冠军队伍提出了基于双编码器架构 AVION 的多模态模型 ContextRefine-CLIP(CR-CLIP),通过跨模态注意力流模块增强视觉与文本特征的双向交互和上下文感知,有效解决了模态间上下文对齐不足的问题,引入软标签相关矩阵和对称多相似度损失,进一步提升语义对齐精度。

“CVPR 2025 EPIC-SOUNDS 基于音频的交互检测挑战”聚焦音频驱动的动作实例预测,要求模型输出音频关联动作的起止时间及类别。挑战在于建模音频中复杂的长时依赖关系,以及传统方法在时序因果捕捉上的不足,限制了长视频中交互行为的定位与分类精度。由2024级硕士研究生尉思琪、卢艺辰和博士研究生赵嘉璇组成的参赛队伍获得该赛题冠军。

imagepng

(依次为尉思琪、卢艺辰、赵嘉璇)

冠军队伍以CausalTAD为基线,利用预训练Auditory-SlowFast网络提取高语义特征,并通过滑动窗口与时空池化生成密集片段特征。在此基础上,构建融合因果注意力与因果Mamba的混合建模模块——因果Mamba基于双向结构化状态空间模型建模长时依赖,因果注意力通过双向多头机制显式捕捉全局因果关系。该方案有效突破了传统方法在长时音频序列中因果关系建模能力有限的瓶颈,在EPIC-SOUNDS数据集上实现了14.87%的平均mAP,显著提升了模型对音频交互行为的时序建模与理解能力。

“CVPR 2025 EPIC-SOUNDS 基于音频的交互识别挑战”聚焦于日常厨房场景中的音频交互理解,要求模型基于EPIC-KITCHENS-100数据集,对物体间交互或佩戴摄像头者活动产生的音频信号进行分类,涵盖人与物体、物体与物体之间的多元交互类型。由2024级硕士研究生谢兴霖、宋克欢,贺晶、王一晴组成的参赛队伍分别获得该赛题冠军与亚军。

冠军队伍提出融合AudioInceptionNeXt精细调参与UniRepLKNet大核建模能力的方案。通过并行多分支深度可分离卷积,实现音频中长时全局语义与短时局部细节的解耦建模。AudioInceptionNeXt采用倒置瓶颈结构,提升表达同时降低计算开销。该方案有效突破了传统音频分类模型在复杂场景下的泛化性能瓶颈,显著提升了音频交互行为的时序建模精度,为多模态环境感知提供了关键技术支撑。

“CVPR-SoccerNet 2025 多视角犯规识别挑战”聚焦自动化视频助理裁判系统(VARS)研发,利用多视角视频分析解决裁判短缺与高成本问题。由2024级硕士研究生张超、林家栋和博士研究生张柯欣组成的参赛队伍获得该赛题亚军。

imagepng

(依次为张超、林家栋、张柯欣)

亚军队伍针对多视角足球视频犯规动作严重度及类型分类需求,提出多视角特征融合网络(MVFN)。采用预训练ViT-L提取视频特征,增强表达能力,并针对训练集类别长尾分布,优化损失函数提升稀疏类别识别。该方案有效突破了多视角视频长尾分布和特征融合两大核心难题,显著提升了多视图视频多任务分类的训练效率和性能表现。

“CVPR 2025CVDD细胞系迁移能力挑战”聚焦细胞系跨条件数据迁移,解决因来源与实验差异引发的模型泛化瓶颈。赛事提供多源实验条件细胞特征数据,要求构建精准捕捉共性与特异性的模型,实现跨细胞系高效迁移与表型预测。由2024级硕士研究生卢艺辰、尉思琪组成的学生队伍获得该赛题亚军。

亚军队伍以DeepProfiler为基线,构建多尺度特征金字塔网络,结合空洞卷积与跨层融合,精准捕捉细胞细微结构,并通过条件归一化中的实例编码动态调整参数,适应不同细胞系分布,同时引入迁移对齐损失,结合跨域特征正交与对比学习,强化判别能力。该方案实现了自动特征学习和显式域差异建模,突破了细胞系数据跨域迁移瓶颈。

“CVPR 2025 时空实例分割挑战”聚焦事件视觉与传统图像融合,基于MouseSIS数据集开展时空实例分割。参赛者需构建跨模态模型,融合图像空间细节与事件流时间动态,实现掩码级多实例跟踪。由2024级硕士研究生贺晶、王一晴组成的学生队伍获得该赛题亚军。

亚军队伍基于ModelMixSort优化小鼠时空实例分割,升级检测器至YOLOv12,替换SAM为性能更强的,通过灰度帧对比度增强及推理阶段旋转翻转测试增强,提升模型鲁棒性与泛化能力。该方案突破了传统方法在小鼠时空实例分割中的性能瓶颈,显著提升了小鼠的跟踪稳定性与分割精度。

“CVPR-NTIRE 2025真实场景单图像反射去除挑战”聚焦真实世界单幅图像反射干扰问题,推动图像恢复技术向工业应用转化。赛事要求开发高效算法,处理多种反射强度与复杂场景,提供实拍数据集及多维评估指标(如SSIM、PSNR),搭建产学研协同平台,缩小实验室算法与实际场景差距、由2024级硕士研究生贺晶、王一晴组成的参赛队伍获得该赛题季军。

季军队伍基于Reversible Decoupling Network(RDNet)改进单幅图像反射去除方法。RDNet通过多列可逆编码器、传输率感知提示生成器及层次解码器,实现传输层与反射层特征的灵活分离与动态校准,有效保留高层语义信息并打破传统固定层间交互模式。该方案有效平衡了长距离依赖建模与细节保留,显著增强了模型对反射区域的感知与去除能力。

“CVPR 2025 EPIC-KITCHENS VISOR 半监督视频对象分割(VOS)挑战”聚焦厨房场景动态目标分割,基于EPIC-Kitchen VISOR数据集,要求跨帧连续分割首帧标注的对象,排除初始帧未出现的干扰。由2024级硕士研究生王一晴、贺晶和谢兴霖、宋克欢组成的学生队伍分别获得该赛题亚军、季军。

亚军队伍基于SAM2,结合流式记忆架构与大规模数据,解决时空交互视觉分割难题。利用MAE预训练编码器、记忆注意力和带遮挡预测的掩码解码器,实现多尺度跨帧特征优化。采用FIFO队列管理历史帧,支持单帧提示生成全视频掩码。该方案有效解决了视频对象分割中的跨帧时空一致性问题,显著提升了模型在对象遮挡、变形及重现等复杂场景下精准追踪初始帧标注对象并排除无关干扰的能力。

西电人工智能学院焦李成教授团队在遥感领域拥有超过30年的经验积累,并在计算机视觉与遥感领域顶级国际会议上取得了卓越成就。团队带领智能学子在各种专业竞赛中屡获佳绩。针对计算机视觉与模式识别领域的多项挑战,团队提出了一系列创新性的解决方案并取得了突破性进展。通过参与学术竞赛,学生们快速提升了科研能力,加强了学术交流,这也是人工智能学院人才培养的重要措施之一。“赛中学”不仅帮助学生快速掌握相关领域的知识,提高了他们从事科研工作的动力,培养了学生的组织协作能力和抗压能力。在过去几年的IGARSS、CVPR、ICCV、ECCV等国际赛事中,团队已经累计斩获百余项国际冠亚季军奖项,取得了显著的人才培养成果。

imagepng微信图片_20250612161202jpg

上一条:【红色西电】大型原创话剧《绝密使命》荣获陕西省弘扬科学家精神舞台剧展演特等奖
下一条:【红色西电】马院刘缙教授获批民盟中央2025年度理论研究课题

【学在西电】西电学子荣获全球计算机视觉顶级会议CVPR 2025竞赛16项冠亚季军
发布时间:2025-06-13 18:29:35来源:人工智能学院点击:我要评论:

西电新闻网讯(通讯员 张柯欣 杨育婷)6月11日至6月15日,2025IEEE国际计算机视觉与模式识别会议在美国进行,学校人工智能学院参赛队伍在焦李成、刘芳、马文萍、杨淑媛教授,李玲玲、刘旭、陈璞花副教授,李硕、杨育婷、孙龙、马梦茹博士以及团队博士生张柯欣、路小强、赵嘉璇的共同指导下,斩获16项冠亚季军奖项。团队针对图像分类与识别、视频理解和跨模态检索等挑战提出了一系列创新性的解决方案。获奖队伍均收到竞赛主办方的邀请,在大会研讨会上分享展示获奖方案。本次竞赛由国家自然科学基金重点、联合项目,教育部创新团队,国家学科创新引智基地等项目支持。

“CVPR 2025农业视觉奖挑战赛:农业模式解析”聚焦于遥感航拍影像中的农作物受灾类型检测,涵盖干旱、洪涝、营养不良、杂草等8类典型情形。由博士研究生路小强、2023级硕士研究生车晨悦、刘欣雨组成的学生队伍获得该赛题冠军,由2023级硕士研究生祖岩岩、柴金铭、张延昭组成的学生队伍获得同赛题季军。

imagepng

(依次为路小强、车晨悦、刘欣雨)

imagepng

(依次为祖岩岩、柴金铭、张延昭)

冠军队伍依托焦李成教授团队自主研发的“悟瞳”遥感多任务基础模型,创新性地融合类自适应重均衡采样、结构感知优化损失与统一孪生多模态编码器,结合卷积、Transformer和Mamba解码器,强化语义解码与模态互补,通过大规模半监督多模态预训练和参数高效微调,配合轻量级多尺度混合专家模块,实现了灾害场景下细粒度知识迁移与识别,显著提升了遥感大场景中稀疏目标多粒度识别能力,获得CVPR 2025 Agriculture-Vision大赛冠军。该方案验证了“悟瞳”模型在农业灾害监测、农情监测及精准农业中的应用潜力,未来将拓展至城市管理、环境监测与自然灾害预警,推动智慧遥感技术的全面发展。

imagepng

“悟瞳”遥感基础模型识别结果展示

“CVPR 2025 VizWiz 零样本图像分类挑战”聚焦提升图像分类模型在零样本场景下的泛化能力,要求模型准确识别由盲人拍摄、视角独特且质量多变的VizWiz数据集中200个目标类别。由2024级硕士研究生杨蘅、卢连平和杨育婷博士组成的参赛队伍获得该赛题冠军。

imagepng

(依次为杨蘅、卢连平、杨育婷)

冠军队伍深入分析发现DFNSB-CLIP擅长细粒度语义解析、SigLIP-v1抗噪能力强,基于此提出融合异构视觉-文本大模型的方案。通过动态权重投票实现优势互补,特征对齐缓解语义偏移,温度缩放融合优化置信输出。该方案在VizWiz测试集上达67.48%准确率,较官方基线提升24.63%,有效应对语义偏移、数据稀缺与图像劣化等挑战,展现出强大的实用潜力。

“CVPR 2025 复杂场景视频目标分割挑战(MOSE)”聚焦于视频中的像素级场景理解,推动模型精准识别动态内容中的目标类别与语义掩码。赛道评估模型应对遮挡、目标消失重现等复杂动态场景的鲁棒性,助力视频分割技术迈向真实应用。由2024级硕士研究生宋克欢、谢兴霖和孙龙博士组成的参赛队伍获得该赛题冠军;由2024级硕士研究生赵霖楠、曹旭强组成的参赛队伍获得该赛题亚军;由博士研究生王梦娇、张君沛组成的参赛队伍获得该赛题季军。

imagepng

(依次为宋克欢、谢兴霖、孙龙)

冠军队伍在深入分析数据集后发现,单一模型难以在复杂多变的场景中持续保持优异性能。为此,队伍构建了自适应伪标签引导的模型优化流程,并针对MOSE数据集对SAM2以及无监督模型TMO进行了定向微调。该方案有效突破了单一模型在全场景适配性不足以及多模型协同效率低的技术瓶颈,显著提升了复杂视频分割与目标跟踪任务的处理精度。

“CVPR 2025 EPIC-KITCHENS-100 多实例检索挑战”聚焦视频与文本间的跨模态检索能力,涵盖视频检索文本(V→T)与文本检索视频(T→V)两项任务。由2024级硕士研究生“贺晶、王一晴”和马梦茹博士组成的参赛队伍获得该赛题冠军。

imagepng

(依次为贺晶、王一晴、马梦茹)

冠军队伍提出了基于双编码器架构 AVION 的多模态模型 ContextRefine-CLIP(CR-CLIP),通过跨模态注意力流模块增强视觉与文本特征的双向交互和上下文感知,有效解决了模态间上下文对齐不足的问题,引入软标签相关矩阵和对称多相似度损失,进一步提升语义对齐精度。

“CVPR 2025 EPIC-SOUNDS 基于音频的交互检测挑战”聚焦音频驱动的动作实例预测,要求模型输出音频关联动作的起止时间及类别。挑战在于建模音频中复杂的长时依赖关系,以及传统方法在时序因果捕捉上的不足,限制了长视频中交互行为的定位与分类精度。由2024级硕士研究生尉思琪、卢艺辰和博士研究生赵嘉璇组成的参赛队伍获得该赛题冠军。

imagepng

(依次为尉思琪、卢艺辰、赵嘉璇)

冠军队伍以CausalTAD为基线,利用预训练Auditory-SlowFast网络提取高语义特征,并通过滑动窗口与时空池化生成密集片段特征。在此基础上,构建融合因果注意力与因果Mamba的混合建模模块——因果Mamba基于双向结构化状态空间模型建模长时依赖,因果注意力通过双向多头机制显式捕捉全局因果关系。该方案有效突破了传统方法在长时音频序列中因果关系建模能力有限的瓶颈,在EPIC-SOUNDS数据集上实现了14.87%的平均mAP,显著提升了模型对音频交互行为的时序建模与理解能力。

“CVPR 2025 EPIC-SOUNDS 基于音频的交互识别挑战”聚焦于日常厨房场景中的音频交互理解,要求模型基于EPIC-KITCHENS-100数据集,对物体间交互或佩戴摄像头者活动产生的音频信号进行分类,涵盖人与物体、物体与物体之间的多元交互类型。由2024级硕士研究生谢兴霖、宋克欢,贺晶、王一晴组成的参赛队伍分别获得该赛题冠军与亚军。

冠军队伍提出融合AudioInceptionNeXt精细调参与UniRepLKNet大核建模能力的方案。通过并行多分支深度可分离卷积,实现音频中长时全局语义与短时局部细节的解耦建模。AudioInceptionNeXt采用倒置瓶颈结构,提升表达同时降低计算开销。该方案有效突破了传统音频分类模型在复杂场景下的泛化性能瓶颈,显著提升了音频交互行为的时序建模精度,为多模态环境感知提供了关键技术支撑。

“CVPR-SoccerNet 2025 多视角犯规识别挑战”聚焦自动化视频助理裁判系统(VARS)研发,利用多视角视频分析解决裁判短缺与高成本问题。由2024级硕士研究生张超、林家栋和博士研究生张柯欣组成的参赛队伍获得该赛题亚军。

imagepng

(依次为张超、林家栋、张柯欣)

亚军队伍针对多视角足球视频犯规动作严重度及类型分类需求,提出多视角特征融合网络(MVFN)。采用预训练ViT-L提取视频特征,增强表达能力,并针对训练集类别长尾分布,优化损失函数提升稀疏类别识别。该方案有效突破了多视角视频长尾分布和特征融合两大核心难题,显著提升了多视图视频多任务分类的训练效率和性能表现。

“CVPR 2025CVDD细胞系迁移能力挑战”聚焦细胞系跨条件数据迁移,解决因来源与实验差异引发的模型泛化瓶颈。赛事提供多源实验条件细胞特征数据,要求构建精准捕捉共性与特异性的模型,实现跨细胞系高效迁移与表型预测。由2024级硕士研究生卢艺辰、尉思琪组成的学生队伍获得该赛题亚军。

亚军队伍以DeepProfiler为基线,构建多尺度特征金字塔网络,结合空洞卷积与跨层融合,精准捕捉细胞细微结构,并通过条件归一化中的实例编码动态调整参数,适应不同细胞系分布,同时引入迁移对齐损失,结合跨域特征正交与对比学习,强化判别能力。该方案实现了自动特征学习和显式域差异建模,突破了细胞系数据跨域迁移瓶颈。

“CVPR 2025 时空实例分割挑战”聚焦事件视觉与传统图像融合,基于MouseSIS数据集开展时空实例分割。参赛者需构建跨模态模型,融合图像空间细节与事件流时间动态,实现掩码级多实例跟踪。由2024级硕士研究生贺晶、王一晴组成的学生队伍获得该赛题亚军。

亚军队伍基于ModelMixSort优化小鼠时空实例分割,升级检测器至YOLOv12,替换SAM为性能更强的,通过灰度帧对比度增强及推理阶段旋转翻转测试增强,提升模型鲁棒性与泛化能力。该方案突破了传统方法在小鼠时空实例分割中的性能瓶颈,显著提升了小鼠的跟踪稳定性与分割精度。

“CVPR-NTIRE 2025真实场景单图像反射去除挑战”聚焦真实世界单幅图像反射干扰问题,推动图像恢复技术向工业应用转化。赛事要求开发高效算法,处理多种反射强度与复杂场景,提供实拍数据集及多维评估指标(如SSIM、PSNR),搭建产学研协同平台,缩小实验室算法与实际场景差距、由2024级硕士研究生贺晶、王一晴组成的参赛队伍获得该赛题季军。

季军队伍基于Reversible Decoupling Network(RDNet)改进单幅图像反射去除方法。RDNet通过多列可逆编码器、传输率感知提示生成器及层次解码器,实现传输层与反射层特征的灵活分离与动态校准,有效保留高层语义信息并打破传统固定层间交互模式。该方案有效平衡了长距离依赖建模与细节保留,显著增强了模型对反射区域的感知与去除能力。

“CVPR 2025 EPIC-KITCHENS VISOR 半监督视频对象分割(VOS)挑战”聚焦厨房场景动态目标分割,基于EPIC-Kitchen VISOR数据集,要求跨帧连续分割首帧标注的对象,排除初始帧未出现的干扰。由2024级硕士研究生王一晴、贺晶和谢兴霖、宋克欢组成的学生队伍分别获得该赛题亚军、季军。

亚军队伍基于SAM2,结合流式记忆架构与大规模数据,解决时空交互视觉分割难题。利用MAE预训练编码器、记忆注意力和带遮挡预测的掩码解码器,实现多尺度跨帧特征优化。采用FIFO队列管理历史帧,支持单帧提示生成全视频掩码。该方案有效解决了视频对象分割中的跨帧时空一致性问题,显著提升了模型在对象遮挡、变形及重现等复杂场景下精准追踪初始帧标注对象并排除无关干扰的能力。

西电人工智能学院焦李成教授团队在遥感领域拥有超过30年的经验积累,并在计算机视觉与遥感领域顶级国际会议上取得了卓越成就。团队带领智能学子在各种专业竞赛中屡获佳绩。针对计算机视觉与模式识别领域的多项挑战,团队提出了一系列创新性的解决方案并取得了突破性进展。通过参与学术竞赛,学生们快速提升了科研能力,加强了学术交流,这也是人工智能学院人才培养的重要措施之一。“赛中学”不仅帮助学生快速掌握相关领域的知识,提高了他们从事科研工作的动力,培养了学生的组织协作能力和抗压能力。在过去几年的IGARSS、CVPR、ICCV、ECCV等国际赛事中,团队已经累计斩获百余项国际冠亚季军奖项,取得了显著的人才培养成果。

imagepng微信图片_20250612161202jpg

责任编辑:史倩云
本月热点
Baidu
map