【论文阅读笔记】Frequency Perception Network for Camouflaged Object Detection

1.论文介绍

Frequency Perception Network for Camouflaged Object Detection
基于频率感知网络的视频目标检测
2023年 ACM MM
Paper Code

2.摘要

隐蔽目标检测(COD)的目的是准确地检测隐藏在周围环境中的目标。然而,现有的COD方法主要定位在RGB域中的图像对象,其性能尚未得到充分利用,在许多具有挑战性的场景。考虑到频域中被感知对象和背景的特征更具区分性,提出了一种基于频域语义层次的可学习、可分离的频率感知机制。我们的整个网络采用两阶段模型,包括频率引导的粗定位阶段细节保留的精定位阶段。利用主干提取的多层次特征,设计了一种基于八度卷积的灵活频率感知模块,用于粗定位。然后,设计校正融合模块,通过先验引导校正跨层特征通道关联,逐步融合高层特征,最后将其与浅层特征联合收割机相结合,实现对被遮挡物体的细节校正。

Keywords:频率感知,先验校正,隐藏目标检测

3.Introduction

在自然界中,动物使用伪装来融入周围环境,以避免被捕食者发现。隐藏对象检测(COD)任务旨在允许计算机自动识别与背景融合的这些隐藏对象。然而,COD的任务是非常具有挑战性的,由于低对比度之间的对象和背景的属性。此外,图像对象可能具有多种外观,包括形状、大小和纹理,这进一步增加了检测的难度。

然而,当前的解决方案仍然在具有挑战性的情况下挣扎,例如多个隐藏的对象,不确定或模糊的对象边界以及遮挡。一般来说,这些方法主要是在RGB颜色域中设计模块来检测遮挡对象,通过寻找纹理等信息不一致的区域(称为突破点)来完成遮挡对象的初始定位。然而,物品本身的隐蔽性和混乱性使这一过程非常困难。在图像频域分析中,频域中的高频和低频分量信息更有针对性地描述了图像的细节和轮廓特征,可以用来提高初始定位的精度。受此启发,本文提出了一个频率感知网络(FPNet),它采用两阶段的搜索和识别策略来检测隐藏的对象,充分利用RGB和频率线索。

一方面,频率导引粗定位阶段的主要目的是利用频域特征寻找被定位目标位置的突破点。我们首先采用Transformer骨干提取输入RGB图像的多级特征。随后,为了实现频域特征的提取,我们引入了频率感知模块,将颜色特征分解为高频和低频分量。其中,高频特征描述纹理特征或快速变化的部分,而低频特征可以勾勒出图像的整体轮廓。考虑到纹理和轮廓对图像目标定位的重要性,我们将它们融合为一个完整的频域信息表示。此外,还采用邻居交互机制来联合收割机组合不同级别的频率感知特征,从而实现对隐藏对象的粗检测和定位。另一方面,细节保留精细定位阶段集中于渐进的先验引导校正和跨层融合,从而产生最终的精细图像对象掩模。具体而言,我们设计了校正融合模块,通过整合先验引导校正和跨层特征通道关联,实现跨层高层特征交互。最后,进一步引入浅层高分辨率特征来细化和修改图像对象的边界,并生成最终的COD结果。

4.网络详解

在这里插入图片描述

本文提出了一种用于隐藏对象检测的频率感知网络(FPNet),如图所示,包括特征提取骨干,频率引导粗定位阶段和细节保留精细定位阶段。

给定一个输入图像 I ∈ R H × W × 3 I ∈ R^{H×W×3} IRH×W×3 ,采用金字塔视觉Transformer(PVT)作为backbone编码器来生成不同级别的特征,表示为 X i , i ∈ 1 , 2 , 3 , 4 X_i ,i∈{1,2,3,4} Xi,i1,2,3,4。第一级特征映射图 X 1 X_1 X1包括关于被映射对象的丰富的详细信息,而更深层特征( X 2 X_2 X2, X 3 X_3 X3, X 4 X_4 X4)包含更高级语义信息。在频率引导粗定位阶段,首先使用频率感知模块(FPM)对高层特征进行频域特征提取,然后采用邻域连接解码器进行特征融合解码,得到粗COD图 𝑆1。然后,在细节保持精细定位阶段,在粗COD图的指导下,将高层特征嵌入到校正融合模块(CFM)以逐步实现跨层的先验引导校正和融合。 最后,使用带有空间注意机制(SAM)的感受野块(RFB)进行低级高分辨率特征优化,并与CFM模块输出相结合,得到最终的COD结果𝑆𝑜𝑢𝑡𝑝𝑢𝑡。

频率引导粗定位
在这里插入图片描述

八度卷积可以学习将图像划分为频域中的低频和高频分量。 低频特征对应于具有温和强度变换的像素点,例如通常代表对象的主要部分的大色块。 另一方面,高频成分是指亮度变化剧烈的像素,例如图像中物体的边缘。 由此提出了一种频率感知模块,自动将特征分离为高频和低频部分,然后形成伪装物体的频域特征表示,详细过程如上图所示。

具体来说,采用八度卷积以端到端的方式自动感知高频和低频信息,从而实现伪装目标检测的在线学习。八度卷积可以有效避免DCT带来的块效应,并利用GPU计算速度的优势。 此外,它可以轻松插入任意网络。 八度卷积输出 Y i = { Y i H , Y i L } Y_i = \{Y^H_i,Y^L_i\} Yi={YiH,YiL} 的详细过程可以描述如下:
在这里插入图片描述
其中𝐹(𝑋;𝑊)表示与可学习参数𝑊的卷积,pool(𝑋,𝑘)是内核大小为𝑘×𝑘的平均池化操作,Upsample(𝑋,𝑠)是一个上采样操作通过最近插值计算 𝑠 的因子。

考虑到高频纹理属性和低频轮廓属性对于伪装目标定位都很重要,我们将它们融合为频域信息的完整表示:
在这里插入图片描述
其中Resize表示将特征调整到固定尺寸,⊕是按元素相加。 然后,如上上图中顶部区域(三个FPM上方的部分)所示,采用邻居连接解码器(NCD)来逐步整合顶部三层的频域特征,充分利用通过邻居层连接的跨层语义上下文关系可以表示为:
在这里插入图片描述
其中 ⊗ 是逐元素乘法,ℊ ↑ (𝑥) 表示上采样和 3 × 3 卷积,cat() 表示串联和 3 × 3 卷积,𝑓′ 2 是 NCD 的输出。 在这个阶段之后,我们使用简单的卷积来获得粗略掩模𝑆1,它揭示了伪装对象的初始位置。

保留细节的精细定位
利用频域特征来实现伪装物体的粗定位,更像是寻找和定位突破点的过程,结果的完整性和准确性还不够。 为此,提出了一种保留细节的精细定位机制,该机制不仅通过先验校正和通道关联实现高级特征的渐进融合,而且还考虑高分辨率特征来细化伪装对象的边界,如上上图所示。

为了实现上述目标,首先设计了一个校正融合模块(CFM),它有效地融合相邻层特征和粗伪装掩模以产生精细输出。 该模块包括三个输入:当前层和上一层特征𝑋𝑖和𝑋𝑖+1,以及粗掩模𝑆𝑔 = {𝑆1,𝑆2}。 此外,首先将输入特征通道的数量减少到64个,表示为𝐹𝑖和𝐹𝑖+1,这有助于提高计算效率,同时仍然保留检测的相关信息。 如下图所示,CFM 由两部分组成。 为了充分利用现有的先验引导图𝑆𝑔,纯化了前一层的特征,并选择与伪装特征最相关的特征来以参与后续的跨层交互。从数学上讲,特征图𝐹𝑖+1首先与粗掩模𝑆𝑔相乘以获得输出特征𝑓′𝑖+1:
在这里插入图片描述
其中 ⊙ 表示逐元素乘法,Upsample 是上采样操作。 这种预先引导的校正在难以从周围环境中辨别物体的情况下特别有用。

为了实现更充分的跨层特征交互,并将前一层的高层信息有效地传递到当前层,设计了通道级关联建模。 通过对𝐹𝑖和𝑓′𝑖+1上的每个像素点进行内积来进行通道注意力,从而计算同一像素的通道维度上不同特征图之间的相似度。 为了进一步降低计算复杂度,还采用了 3 × 3 卷积来创建瓶颈结构,从而压缩输出通道的数量。 这个过程可以描述为:
在这里插入图片描述
其中 ⊗ 是矩阵乘法。 然后,通过对特征 𝐴 使用两个 3 × 3 卷积运算来学习两个权重图 𝛼 和 𝛽。 它们进一步以调制的方式用于校正当前层𝐹𝑖的特征。 这样,通过残差处理就可以生成最终的跨层融合特征:
在这里插入图片描述
除了上述对高层特征的先验校正和通道关联建模外,还充分利用第一层的高分辨率信息来补充详细信息。 具体来说,在第一层特征(𝑋1)上使用感受野块(RFB)模块和空间注意模块来扩大感受野并突出特征的重要空间信息,然后融合 与 CFM 模块的输出 (𝑓𝑜𝑢𝑡 2 ) 一起生成最终的预测图:
在这里插入图片描述
其中𝑅𝐹𝐵和𝑆𝐴𝑀分别是感受野模块和空间注意模块。 𝐵𝑐𝑜𝑛𝑣 表示 3 × 3 卷积层以及批量归一化和 ReLU。
在这里插入图片描述
损失函数
在三个COD图(即𝑆𝑆2和𝑆𝑜𝑢𝑡𝑝𝑢𝑡)上计算加权二元交叉熵损失(L𝜔𝐵𝐶𝐸)和IoU损失(L𝜔𝐼𝑜𝑈)以形成我们的最终损失函数:
在这里插入图片描述

其中 L* = L𝜔 𝐵𝐶𝐸 + L𝜔 𝐼𝑜𝑈, * = {1, 2, 𝑜𝑢𝑡𝑝𝑢𝑡},
L1 表示粗预测图之间的损失𝑆1 和真实值,L2 表示预测图 𝑆2 的损失 在第一个 CFM 之后,L𝑜𝑢𝑡𝑝𝑢𝑡 表示最终预测图 𝑆𝑜𝑢𝑡𝑝𝑢𝑡 与真值之间的损失。

5.实验结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/584025.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java中的对象拷贝(包括BeanUtils和Mapstruct)

对象拷贝 借鉴: https://blog.csdn.net/weixin_43811057/article/details/122853749https://blog.csdn.net/weixin_42036952/article/details/105697234?spm1001.2101.3001.6650.8&utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogComme…

目标检测应用场景—数据集【NO.33】血细胞图像分类和检测数据集

写在前面:数据集对应应用场景,不同的应用场景有不同的检测难点以及对应改进方法,本系列整理汇总领域内的数据集,方便大家下载数据集,若无法下载可关注后私信领取。关注免费领取整理好的数据集资料!今天分享…

LVS/NAT工作模式介绍及配置

1.1 LVS/NAT模式工作原理 LVS(Linux Virtual Server)的网络地址转换(NAT)模式是一种在网络层(第四层)实现负载均衡的方法。在NAT模式中,Director Server(DS)充当所有服务…

leetcode51.N皇后(困难)-回溯法

思路 都知道n皇后问题是回溯算法解决的经典问题,但是用回溯解决多了组合、切割、子集、排列问题之后,遇到这种二维矩阵还会有点不知所措。 首先来看一下皇后们的约束条件: 不能同行不能同列不能同斜线 确定完约束条件,来看看究…

UE5 体积云

写好的体积材质放这里面 效果如上 Begin Object Class/Script/UnrealEd.MaterialGraphNode Name"MaterialGraphNode_4"Begin Object Class/Script/Engine.MaterialExpressionVectorParameter Name"MaterialExpressionVectorParameter_0"End ObjectBegin O…

人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179

然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到 这里要知道Transformer中最常用的Adam 和 AdamW这两种算法. 当然,这些算法都是用于优化神经网络中的参数,以最小化损失函数。下面我会尽量以通俗易懂的方式解释它们的原理和适用场景。 1. **L-…

关于电路设计的一些基本知识点

目录 一,BUCK降压电路1.1 布局与布线1.1.1 高频电流环路1.1.2 小信号的地1.1.3 其他要注意的地方 1.2 输入输出电容,电感的选择1.2.1 电感的选择1.2.2 输入输出电容的选择 三,电源芯片3.1 LM2596,LM2576 四,运放电路设计4.1 运放的…

亚马逊接入时遇到的相关问题和解决方法

1、签名获取 在做amazon的SDK接入时,发现需要应用签名的一些信息:MD5签名和SHA256签名。用命令java的命令 keytool -list -v -keystore xxx.keystore 如果是Java版本不是1.8的话,结果缺少MD5值 这里有3种解决方案: 1、将jav…

医生个人品牌网红IP孵化打造赋能运营方案

【干货资料持续更新,以防走丢】 医生个人品牌网红IP孵化打造赋能运营方案 部分资料预览 资料部分是网络整理,仅供学习参考。 PPT可编辑(完整资料包含以下内容) 目录 个人IP运营方案 1. 目标设定 - 个人定位:根据医生…

【论文阅读】IPT:Pre-TrainedImageProcessingTransformer

Pre-TrainedImageProcessingTransformer 论文地址摘要1. 简介2.相关作品2.1。图像处理2.2。 Transformer 3. 图像处理3.1. IPT 架构3.2 在 ImageNet 上进行预训练 4. 实验4.1. 超分辨率4.2. Denoising 5. 结论与讨论 论文地址 1、论文地址 2、源码 摘要 随着现代硬件的计算能…

ChatGPT理论分析

ChatGPT "ChatGPT"是一个基于GPT(Generative Pre-trained Transformer)架构的对话系统。GPT 是一个由OpenAI 开发的自然语言处理(NLP)模型,它使用深度学习来生成文本。以下是对ChatGPT进行理论分析的几个主…

科学高效备考AMC8和AMC10竞赛,吃透2000-2024年1850道真题和解析

多做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一,通过做真题,可以帮助孩子找到真实竞赛的感觉,而且更加贴近比赛的内容,可以通过真题查漏补缺,更有针对性的补齐知识的短板。 AMC8和AMC10…

【HTTP协议】了解http需要学习哪些内容

HTTP(Hypertext Transfer Protocol)是超文本传输协议,互联网上应用最广泛的一种协议,它负责在客户端和服务器之间传输数据。本文将从HTTP协议的基本原理、请求-响应模型、常见特性以及应用场景等方面进行总结。 1. HTTP基本原理 …

31.基础乐理-首调与固定调

首调与固定调的概念: 首调 与 固定调 这两个词都是针对 唱名 来说的,针对唱名1234567 来说的,和别的没什么关系,这两个概念是唱名的两种不同表达方式 首调:虽然各个大调实际使用的按键、使用的音名都是不一样的&#x…

LeetCode - 129双周赛

目录 一,3127. 构造相同颜色的正方形 二,3128. 直角三角形 三,3129. 找出所有稳定的二进制数组 I ​编辑 四,3130. 找出所有稳定的二进制数组 II 一,3127. 构造相同颜色的正方形 本题就是问在一个3x3的正方形中是…

前端如何将接口传来的列表数据(数组)直接下载成csv文件

前言:最近遇到一个需求,需要实现一个下载表格数据的操作,一般来说是前端请求后端的下载接口,将文件流下载下来,但是因为这个项目任务时间比较紧,后端没时间做下载接口,所以暂时由前端直接调列表…

头歌实践教学平台:投影变换v1.0

第2关:立方体平行投影 一.任务描述 根据提示,在右侧修改代码,并自己绘制出图形。平台会对你编写的代码进行测试。 1.本关任务 学习了解三维图形几何变换原理。 理解掌握OpenGL三维图形几何变换的方法。 理解掌握OpenGL程序的模型视图变换…

ElasticSearch面试题2

Mapping属性详细介绍/常见的字段数据类型: 映射(mapping)︰mapping是对索引库中文档的约束信息(例如字段名、数据类型),类似表的结构约束;每个索引库都应该有自己的映射 数据库一定要先创建表才能去添加数据…

Redis缓存介绍以及常见缓存问题:穿透、雪崩和击穿

概念 缓存就是数据交换的缓冲区(Cache),是存贮数据的临时地方,一般读写性能较高。 作用: 降低后端负载 提高读写效率,降低相应时间 成本: 数据一致性成本 代码维护成本 运维成本 缓存更…

JAVA系列 小白入门参考资料 类和对象(3)

温馨提示: 此篇文章需要前两篇文章作为基础。 JAVA系列 小白入门参考资料 类和对象(1)​​​​​​​ JAVA系列 小白入门参考资料 类和对象(2) 目录 1. 封装 引入封装 访问修饰符 封装的具体实现 get方法和…
最新文章