当前位置: 网站首页 >> 科学研究 >> 研究方向 >> 正文

复杂场景图像感知与理解

发布者: [发表时间]:2022-09-02 [来源]: [浏览次数]:

复杂场景图像感知与理解


复杂场景图像感知与理解是计算机视觉领域前沿挑战难题。在国基金重点等项目资助下,在深度神经网络架构设计、复杂场景文字检测与识别、智能视频监控等方面取得了一系列进展:


研究内容

l 提出了序列图像识别深度神经网络架构,突破了传统的自下而上的识别方式,实现行级别图像的端到端识别,克服训练时正负样本不均衡问题,支持场景文本、五线谱等序列图像识别,模型大小比CNN方法缩小50倍,极大地简化了应用流程,被工业界和学术界广泛采用。

l 基于深度神经网络成功实现了场景文字检测,克服CNN应对文字多方向、极端长宽比等变化的感受野局限,在国际上首次提出多方向文字检测方法,提出了具有旋转不变性的文字特征;发布首个多方向场景文字检测与识别公共数据集,定义了其评价标准,打破基于水平滑动窗限制,文本检测精度提升20%,开启多方向目标识别研究热潮。

l 提出了视频数据动态驱动池化方法、基于组稀疏的部件选择策略,提升中层特征编码的时空鲁棒性;提出了多尺度搜索,自适应选择最优尺度,解决了视频场景中的目标尺度变化大的难题;设计了多角度人头检测器,自适应选择最优检测器,解决了视频场景中的多视角成像难题。

研究成果

相关工作被PaddlePaddleOpenCVModelArt平台收录,培养了华为天才少年等一批高水平技术人才,获得互联网+大赛国赛金奖、优秀创新创业导师奖等。成果应用于淘宝网络图片治理等业务,创造经济效益10亿元。也应用于公安部门、交管部门的视频监控基础平台、深度应用系统、视频侦查作战平台、合成作战平台、多维感知平台、视频图像解析中心平台等软件平台及系统中,实现相关产品销售收入14.30亿元,净利润1.08亿元,税收8091.8万元。提升公安部门智能化程度,有效遏制犯罪、提高治安防控能力、警务工作效率,节省警务资源,助力科技强警,维护社会安定,构建和谐社会。


成果奖励

l 白翔等,复杂场景文字检测与识别,中国图象图形学会自然科学一等奖,2021

l 桑农等,监控视频中行人分析关键技术及产业化应用,湖北省科技进步一等奖,2019

l 马佳义,...,田金文(排5),高效高精准图像匹配理论及其应用研究,湖北省科技进步一等奖,2018