X

信息学院2024年学术报告

作者:贾纫秋 出处:信息学院发布时间:2024-09-19浏览次数:192

题目:高效视频理解

主讲人:常晓军 教授

时间:9月20日9:00

地点:文理楼804

报告摘要:

探讨视频理解领域的前沿进展,重点介绍三项关键工作。

一是介绍时空金字塔变压器(Spatio-Temporal Pyramid Transformer,STPT)在动作检测中的应用,该方法创新性地结合了局部窗口和全局注意力机制,捕捉时空依赖关系,在显著降低计算成本的同时实现了优异的性能。

二是介绍用于视频语义分割的遮罩传播框架(Mask Propagation for Video Semantic Segmentation,MPVSS),该框架通过从稀疏关键帧传播准确的遮罩,提高了效率,在VSPW和Cityscapes等基准测试上达到了最先进的精度和效率。

三是讨论用于长视频理解的长视频语言模型(LongVLM),该模型借助大语言模型(LLM)将长视频分解为短片段,并将局部特征与全局语义相结合,生成全面而精确的响应。这些工作展示了高效且强大的模型在视频理解领域的潜力,为精度、效率和全面分析带来了显著提升。

个人简介:

常晓军,教授,中国科学技术大学的讲席教授、国家级高层次人才,曾获得澳大利亚研究委员会的早期职业研究奖。主要研究方向包括多模态学习、计算机视觉、绿色人工智能及其在社会公益中的应用。先后主持了包括澳大利亚研究委员会在内的十多个国家级项目。其研究成果已在国际顶级期刊(如T-PAMI、TIP)和CCF A类会议上发表超过150篇论文,谷歌学术引用次数超过18,000次,其中21篇论文被选为ESI高被引/热点论文,2019至2023年连续被评为科睿唯安高被引学者。现担任IEEE TCSVT、IEEE TNNLS、ACM TOMM等国际顶级期刊的副主编,以及CCF A类会议的领域主席。