郝艳宾:深度视觉模型的上下文关系增强

报告时间2022年7月17日(星期日)16:30-17:10

报告平台:腾讯会议ID:760-580-457

报告人:郝艳宾副研究员

工作单位中国科学技术大学

举办单位:js6666金沙app

报告简介

深度视觉模型是深度视觉识别系统的核心,是图像视频数据相关任务的基础组件,其很大程度上决定了业界的发展。当前主流的深度视觉基础模型主要包括Vision MLP, Vision Transformer和CNN。此三类模型沿用了不同的深度神经网络架构,因此具有差异化的视觉上下文关系感知能力。本报告将介绍我们团队在有针对性提升视觉深度模型的视觉上下文关系建模方面的研究工作:在图像处理上,提出PosMLP模型,设计基于相对位置编码的夸视觉词块关系建模方法,提升基线Vision MLP模型的性能;在视频处理上,针对Vision Transformer,提出Token Shift组件,实现视频时空上下文关系感知与建模,针对CNN,提出多轴向上下文关系校准器,以分组校准模式显著提升二模型对三维视觉的感知建模能力。

报告人简介

郝艳宾,中国科学技术大学信息科学技术学院特任副研究员。分别于2012年和2017年毕业于合肥工业大学工学。攻读博士学位期间(2015-2017),他作为“111”计划和国家留学基金委资助的联合培养博士在英国利物浦大学交流学习。从2018年到2020年,加入了香港城市大学电脑科学系VIREO实验室做博士后研究。研究方向为多媒体内容分析、检索和识别。发表IEEE/ACM Transactions或者CCF A 类会议论文20余篇。 主持国家自然科学基金青年基金项目、省级高校协同创新项目,作为子课题负责人主持科技部重点研发计划项目、国家自然科学基金委联合基金项目。担任顶级期刊如TNNLS、TMM、TKDE等审稿人,多次担任CCF A类会议如CVPR、ICCV、ECCV、ACMMM、AAAI等程序委员或审稿人。