复杂场景图像感知与理解-图像信息处理与智能控制教育部重点实验室

当前位置: 网站首页 >> 科学研究 >> 研究方向 >> 正文

复杂场景图像感知与理解

发布者： [发表时间]：2022-09-02 [来源]： [浏览次数]：

复杂场景图像感知与理解

复杂场景图像感知与理解是计算机视觉领域前沿挑战难题。在国基金重点等项目资助下，在深度神经网络架构设计、复杂场景文字检测与识别、智能视频监控等方面取得了一系列进展：

研究内容

l 提出了序列图像识别深度神经网络架构，突破了传统的“自下而上”的识别方式，实现行级别图像的端到端识别，克服训练时正负样本不均衡问题，支持场景文本、五线谱等序列图像识别，模型大小比CNN方法缩小50倍，极大地简化了应用流程，被工业界和学术界广泛采用。

l 基于深度神经网络成功实现了场景文字检测，克服CNN应对文字多方向、极端长宽比等变化的感受野局限，在国际上首次提出多方向文字检测方法，提出了具有旋转不变性的文字特征；发布首个多方向场景文字检测与识别公共数据集，定义了其评价标准，打破基于水平滑动窗限制，文本检测精度提升20%，开启多方向目标识别研究热潮。

l 提出了视频数据动态驱动池化方法、基于组稀疏的部件选择策略，提升中层特征编码的时空鲁棒性；提出了多尺度搜索，自适应选择最优尺度，解决了视频场景中的目标尺度变化大的难题；设计了多角度人头检测器，自适应选择最优检测器，解决了视频场景中的多视角成像难题。

研究成果

相关工作被PaddlePaddle、OpenCV、ModelArt平台收录，培养了华为天才少年等一批高水平技术人才，获得互联网+大赛国赛金奖、优秀创新创业导师奖等。成果应用于淘宝网络图片治理等业务，创造经济效益10亿元。也应用于公安部门、交管部门的视频监控基础平台、深度应用系统、视频侦查作战平台、合成作战平台、多维感知平台、视频图像解析中心平台等软件平台及系统中，实现相关产品销售收入14.30亿元，净利润1.08亿元，税收8091.8万元。提升公安部门智能化程度，有效遏制犯罪、提高治安防控能力、警务工作效率，节省警务资源，助力科技强警，维护社会安定，构建和谐社会。

成果奖励

l 白翔等，复杂场景文字检测与识别，中国图象图形学会自然科学一等奖，2021

l 桑农等，监控视频中行人分析关键技术及产业化应用，湖北省科技进步一等奖，2019

l 马佳义，...，田金文（排5），高效高精准图像匹配理论及其应用研究，湖北省科技进步一等奖，2018

喜迎校庆

光谷人工智能大会

开学第一课

复杂场景图像感知与理解