西安电子科技大学学报 ›› 2022, Vol. 49 ›› Issue (3): 28-35.doi: 10.19665/j.issn1001-2400.2022.03.004

• 信息与通信工程 • 上一篇    下一篇

一种引入注意力机制的红外目标检测方法

杨子轩1(),肖嵩1,2(),董文倩1(),曲家慧1()   

  1. 1.西安电子科技大学 综合业务网理论及关键技术国家重点实验室,陕西 西安 710071
    2.北京电子科技学院 电子与通信工程系,北京 100070
  • 收稿日期:2021-02-03 修回日期:2022-02-23 出版日期:2022-06-20 发布日期:2022-07-04
  • 作者简介:杨子轩(1996—),男,西安电子科技大学硕士研究生,E-mail: zxyang@stu.xidian.edu.cn|肖嵩(1977—),女,教授,博士,E-mail: xiaosong@mail.xidian.edu.cn|董文倩(1990—),女,讲师,博士,E-mail: wqdong@xidian.edu.cn|曲家慧(1991—),女,讲师,博士,E-mail: jhqu@xidian.edu.cn
  • 基金资助:
    国家自然科学基金(62101414);111项目(B08038);陕西省自然科学基础研究计划(2021JQ-194);陕西省自然科学基础研究计划(2021JQ-197);中央高校基本科研业务费(XJS210108);中央高校基本科研业务费(XJS210104);中国博士后科学基金(2021M702546);中国博士后科学基金(2021M702548);广东省基础与应用基础研究基金(2020A1515110856)

Thermal target detection method introducing an attention mechanism

YANG Zixuan1(),XIAO Song1,2(),DONG Wenqian1(),QU Jiahui1()   

  1. 1. State Key Laboratory of Integrated Service Networks,Xidian University,Xi’an 710071,China
    2. Department of Electronic and Communication Engineering,Beijing Electronic Science andTechnology Institute,Beijing 100070,China
  • Received:2021-02-03 Revised:2022-02-23 Online:2022-06-20 Published:2022-07-04

摘要:

针对红外目标纹理细节少、检测精度低的问题,提出在红外检测场景下引入注意力机制的Cascade-RCNN算法,设计了一种适用于红外场景的注意力机制以提升算法检测精度。由于基于深度学习的注意力机制常在可见光数据集上进行性能验证,首先在红外检测数据集上测试常见于可见光场景注意力机制的检测精度,对于以上注意力机制在红外目标检测场景的优缺点进行分析,提出一种显隐性通道交互的注意力机制,主要由显性特征交互和隐性特征交互两种方式组成;在显性特征交互方式上采用因子分解机的方法,在隐性特征交互方式上采用全连接层的方式;最后将两种交互方式通过全连接层到同维希尔伯特空间并进行信息融合,将通道关系从显性和隐性角度进行建模。同时,提出一种局部池化替换全局池化以获取更多红外目标空间纹理信息,结合在空间维度上使用多尺度卷积提取不同感受野的目标信息,进一步提升了算法精度。在FLIR公开红外数据集上进行实验,相比于基准算法Cascade RCNN,新方法在不引入过多参数量的同时,检测性能在不同的骨干网络上有2%左右的mAP提升。

关键词: 因子分解机, 局部池化, 解耦结构, 多尺度卷积, 红外检测

Abstract:

In view of the problems of less texture details and low detection accuracy of infrared targets,we propose a Cascade-RCNN algorithm introducing an attention mechanism in thermal detection scenes,and design an attention mechanism suitable for infrared scenes.Because the attention mechanism is commonly used for performance verification on visible-light datasets,we first experiment the detection accuracy of other attention mechanisms on the thermal detection dataset,and meanwhile,propose an attention mechanism that interacts with explicit and implicit channels.In this method,the factorization machine method and the fully connected layer method are adopted,using this method to make all features go into the same Hilbert space.We propose a local pooling method to replace the global pooling method to obtain more image spatial information,using multi-scale convolution in the spatial dimension to extract target information in different receptive fields.An experiment is conducted on the FLIR thermal dataset.Without many parameters,the detection performance is improved by about 2% on different backbone networks compared to the Cascade R-CNN.

Key words: factorization machine, local pooling, decoupling structure, multi-scale convolution, thermal detection

中图分类号: 

  • TP311.1