WaveCRNet:小波变换引导下的铁路场景语义分割论文笔记

小波变换能够提取图像的多尺度频率信息，在细节表达方面具有优势；现有实时语义分割方法主要依赖网络结构优化，缺乏对频率信息的利用；同时，铁路场景具有多类别和复杂环境特性，传统方法难以满足需求，因此有必要引入频率信息以提升分割性能。

菲菲111

579人浏览 · 2026-03-28 10:55:49

菲菲111 · 2026-03-28 10:55:49 发布

一、整体总结

研究领域：

本文属于计算机视觉领域，具体为面向智能铁路系统的语义分割研究，重点关注恶劣环境下的实时语义分割问题。

解决问题：

（1）恶劣环境对分割性能的影响：铁路场景中存在雨、雪、雾、低光照及隧道等复杂条件，这些因素会导致目标遮挡、特征缺失和边界模糊，从而降低语义分割精度。（2）现有方法对图像内在信息利用不足：当前主流方法主要通过优化网络结构提升性能，但缺乏对图像频率信息（如高频边缘和低频背景）的有效利用。（3）实时性与精度难以兼顾：高精度模型通常计算复杂、速度较慢，而轻量化模型虽速度较快，但精度不足，难以满足实际应用需求。

使用技术：

本文提出了一种基于小波变换引导学习的语义分割模型 WaveCRNet，其核心思想是将图像的频率信息引入深度网络，通过小波增强、注意力融合、复小波边界重建及改进池化模块实现特征域与频率域的协同建模，从而提升模型在复杂环境下的分割性能。

实验结果：

在RailSem19数据集上的实验结果为：mIoU：63.7%、推理速度：87 FPS，表明WaveCRNet在保证实时性的同时显著提升了分割精度，并优于多种主流方法。

二、结构精读

1. 引言（Introduction）

主要介绍研究背景与问题来源。首先指出语义分割在铁路智能驾驶中的重要性，其次分析恶劣环境对分割性能的影响，包括天气干扰、光照不足和复杂场景等因素。最后提出本文的核心思想，即利用小波变换引入频率信息，从而提升模型在复杂环境下的鲁棒性。

2. 相关工作（Related Work）

（1）小波变换

介绍小波变换在图像处理中的应用，包括去噪、特征提取和多尺度分析等，并指出其在提取高频细节方面具有优势。

（2）实时语义分割

综述了BiSeNet、DDRNet、PIDNet等方法，这些方法主要通过网络结构设计提升速度和精度，但缺乏对频率信息的利用。

（3）铁路场景分割

指出现有研究多集中于轨道区域检测，缺乏对复杂多类别铁路场景的全面语义分割。

总结：小波变换能够提取图像的多尺度频率信息，在细节表达方面具有优势；现有实时语义分割方法主要依赖网络结构优化，缺乏对频率信息的利用；同时，铁路场景具有多类别和复杂环境特性，传统方法难以满足需求，因此有必要引入频率信息以提升分割性能。

3. 方法（Method）

（1）总体框架

WaveCRNet基于三分支结构，包括P分支（高分辨率特征）、I分支（上下文信息）和D分支（边界信息），分别对应PID控制器中的比例、积分和微分部分，通过三分支协同建模实现细节、语义和边界信息的联合学习。

上部分：首先通过可微离散小波变换（DWT）对输入图像进行频率分解，获得高频与低频信息并完成特征增强；随后将增强后的特征输入基于PID思想构建的三分支网络，其中P分支负责细节保持，I分支负责语义上下文建模，D分支结合DCRM模块强化边界信息；在特征融合过程中，引入WAPM模块实现小波信息与深层特征的注意力引导融合，并通过LAPPM模块进行多尺度上下文聚合；最终通过分割头（Seg Head）与边界头（Boundary Head）输出语义分割结果，并结合OHEM损失与边界损失进行联合优化，从而实现复杂铁路场景下高精度与实时性的统一。

下部分：将WaveCRNet类比为引入小波先验的PID控制器：其中P分支对应比例项，用于响应当前特征并引入小波增强信息；I分支对应积分项，用于累积全局语义上下文；D分支对应微分项，通过小波变换建模特征变化以强化边界信息；三者经融合后实现对分割结果的动态调节，从而在精度与稳定性之间取得平衡，并有效抑制传统方法中的过冲（Overshoot）问题。这部分的意义在于，它不仅提出了一个网络结构，还从理论上解释了为什么该结构能够提升性能。

（2）小波信息增强算法

首先对输入图像进行灰度转换，然后通过二维小波变换将图像分解为低频分量（LL）和高频分量（LH、HL、HH）。

DWT（Discrete Wavelet Transform，离散小波变换）

将图像分解为低频（整体信息）和高频（边缘细节）的多尺度表示方法，用于增强特征表达能力。

二维小波变换（2D-DWT）

把图像分成：

分量	含义
LL	低频（整体）
LH	水平边缘
HL	垂直边缘
HH	对角线细节

随后对各频率分量进行归一化处理，并对高频信息进行加权增强，以突出边缘与纹理特征。

最后通过阈值筛选关键区域，进一步强化有效特征并抑制噪声。

其本质是：增强关键边缘信息，减少无效噪声干扰。

也就是：原图 → 分解 → 强化边缘 → 去噪 → 重建特征

二维离散小波变换（2D-DWT）：

先对图像的行分别用低通滤波器 L (n)（保留平滑、低频信息）和高通滤波器 H (n)（捕捉边缘、高频细节）滤波，再做 2 倍下采样；
再对结果的列重复同样操作，最终把一张图拆成 4 个子带

逆变换（2D-IDWT）：

是 2D-DWT 的反向操作：

把 LL/HL/LH/HH 四个子带先做 2 倍上采样，再用对应的逆滤波器分别处理行和列；
最终将频域子带信息合并，还原出原始二维图像。

首先对二维灰度图像依次通过低通核 L (n) 与高通核 H (n) 进行滤波并 2 倍下采样，经两级分解得到 LL（低频近似）、HL（水平高频）、LH（垂直高频）、HH（对角高频）四个子带；随后可通过 2D-IDWT 将四个子带重构为原始铁路图像，实现了铁路场景图像的多尺度频域分解与重构，为后续特征提取或图像增强提供了频域分析基础。

（3）WAPM模块

小波引导注意力模块，通过自注意力机制融合频率特征与语义特征，引导模型关注关键区域。

该模块将小波特征与语义特征进行融合，并利用自注意力机制建模两者之间的关系。通过计算注意力权重，实现对重要区域的动态关注，从而提升模型对关键区域的感知能力。

上层：Pag Module（位置感知门控模块），对像素级特征 EP 进行门控调制，通过 sigmoid 激活函数生成动态权重，实现特征的选择性增强。

下层：Wave-guided Attention Module（小波引导注意力模块），将融合小波频域信息的特征图 dwt_merge 与视觉特征 E 融合，通过自注意力机制（query/key/value）生成注意力增强特征 Eattn，最终将两路输出残差融合，实现小波频域信息引导的特征精细化与定位增强，适用于铁路场景的语义分割任务。

（4）DCRM模块

基于双树复小波变换（DTCWT）的边界增强模块，用于提升边界建模能力并减少位移敏感问题。

相比传统小波变换，DTCWT具有更好的平移不变性和方向选择性，能够有效减少边界失真问题。

通过频率域重建，模型可以更准确地恢复复杂场景中的边界信息。

(5) LAPPM（Lightweight Aggregation Pyramid Pooling Module）

轻量级多尺度池化模块，采用SoftPool实现上下文信息聚合，提高特征表达能力。

（6）损失函数设计

本文采用多分支损失函数，包括：

OHEM交叉熵损失，用于解决类别不平衡问题
边界损失，用于增强边界检测能力
联合损失，用于协同优化语义分割与边界检测任务

这些损失共同作用，提高模型在复杂场景下的泛化能力。

总结：

输入图像（Input Image）
↓
小波信息增强（DWT_Forward + Wavelet Enhancement）
↓
特征提取（Backbone：Stage1 / Stage2 / Stage3）
↓
小波引导注意力融合（WAPM模块）
↓
边界强化（DCRM模块，基于DTCWT）
↓
多尺度上下文建模（LAPPM模块 + I分支）
↓
三分支协同建模（PID结构：P / I / D分支）
↓
特征融合（Feature Fusion）
↓
分割预测（Seg Head） + 边界预测（Boundary Head）
↓
联合损失优化（OHEM Loss + Boundary Loss + SemanticBD Loss）
↓
输出语义分割结果（Segmentation Result）

4. 实验（Experiment）

（1）数据集与设置

使用RailSem19数据集，包含19类铁路场景目标，涵盖城市、乡村和森林等多种环境。

（2）性能对比

实验结果表明，WaveCRNet在精度和速度之间取得了更优的平衡，优于多种主流实时分割模型及Transformer模型。

整体性能对比：

WaveCRNet（ours）：
- 推理速度：87 FPS（满足实时性要求，且显著快于多数大模型）
- 平均精度：63.7% mIoU（在所有对比模型中排名第一）
- 关键优势：在速度与精度的平衡上表现最优，既超过了轻量模型（如 PIDNet-S）的精度，又比大模型（如 PIDNet-L、SCTNet-B）更快。
对比基线：
- 相比 PIDNet-L（64 FPS，61.9% mIoU）：+23 FPS，+1.8% mIoU
- 相比 SCTNet-B（84 FPS，60.1% mIoU）：+3 FPS，+3.6% mIoU
- 相比 ViT-CoMer（26 FPS，60.5% mIoU）：+61 FPS，+3.2% mIoU
- 相比实时模型 BiSeNetV2（101 FPS，52.1% mIoU）：-14 FPS，+11.6% mIoU

类别精度亮点

WaveCRNet 在多个关键铁路相关类别上取得领先：
Construction（建筑）：74.1%（远超其他模型，体现对复杂背景的分割能力）
Tram-track（有轨电车轨道）：70.8%（轨道类精度突出）
Fence（围栏）：50.7%
Pole（杆状物）：59.9%
Rail-tracked（轨道）：73.0%
On-rails（轨上区域）：75.3%
Rail-raised（凸起轨道）：68.7%
Embedded（嵌入式元素）：52.6%同时在 Sky（天空，95.2%）、Vegetation（植被，84.8%）、Terrain（地形，66.0%） 等背景类别也保持高精度，证明模型对铁路场景全域语义的理解能力。
轻量模型（T/S）：速度快（>120 FPS）但精度偏低（<60% mIoU）
中 / 大模型（M/L/B）：精度较高（>60% mIoU）但速度慢（<86 FPS）
WaveCRNet：无额外骨干规模标注，却实现了 87 FPS + 63.7% mIoU，在精度 - 速度权衡上显著优于所有对比模型，是铁路场景语义分割的高效方案。

（3）可视化分析

在雨雪雾和夜间场景中，WaveCRNet能够更准确地提取目标轮廓和语义信息，表现出更强的鲁棒性。

（4）消融实验

通过逐步去除各模块，验证了以下结论：

这说明Pag（门控融合） > Add（简单相加），而 WAPM 在 Pag 基础上又加入了小波频域引导，效果更好。WAPM+DCRM 协同：是 P/D 支路的最优组合，充分释放了小波约束 PID 控制器的潜力。比 “Add+Add” 提升 2.4% mIoU，证明了小波先验与特征域融合的有效性。

小波增强算法能够提升特征质量
DCRM显著提升边界分割能力
WAPM增强特征融合效果
DCRM-LBM 模块：在双支路模型上可稳定提升 mIoU 2.7%~3.4%，验证了小波约束 PID 控制结构的有效性。
小波增强算法：高频频带是关键，算法能进一步去噪增信，最终带来 0.6% 的精度增益，证明了小波频域先验的价值。
当 P 支路用 Add 时，mIoU 是 61.3%；
换成 Pag 后，mIoU 提升到 62.1%（+0.8%）；
再升级到 WAPM（小波引导注意力模块），mIoU 进一步到 62.9%（+1.6%）。

LAPPM-LBM 性能验证

该表验证了 I 支路（PPM 变体） 与 融合方式（Add/LBM） 的效果

DAPPM / PAPPM / LAPPM 都是 并行化的 PPM 变体：

DAPPM：Dilated-ASPP 风格的并行空洞金字塔池化，用不同膨胀率的空洞卷积实现多尺度感受野。
PAPPM：Parallel Aggregation PPM，纯并行的金字塔池化结构。
LAPPM：Local Aggregation PPM，在并行基础上加入了局部软池化（SoftPool），保留更多细节。

结论：在 I 支路实现高效多尺度聚合，同时通过 LBM 引导分支约束，最终达成高精度与实时性的平衡。

将 PPM 串行结构改为并行（DAPPM/PAPPM/LAPPM）可提升推理速度；
LBM（边界引导模块）引导三支路约束，比简单 Add 融合提升 0.9% mIoU；
LAPPM+LBM 组合最终实现 63.7% mIoU + 87 FPS，在精度与速度间取得最优平衡。这张表验证了 Boundary Loss（边界损失）、SemanticBD Loss（语义边界损失）、OhemCE Loss（在线难例交叉熵损失）和Lp（就是专门作用于 P 支路预测结果 的 OhemCE 损失，用来监督 P 支路的学习过程。OhemCE：全称是 Online Hard Example Mining Cross Entropy，即在线难例挖掘的交叉熵损失。普通交叉熵会平等对待所有像素，而 OhemCE 会自动筛选出预测困难、容易分错的像素）对模型性能的影响。边界损失和语义边界损失是提升精度的核心，OhemCE 损失进一步强化特征融合，三者协同使模型在 RailSem19 数据集上取得最优性能。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

纯血鸿蒙彻底告别安卓依赖：HarmonyOS 7.0 即将正式发布，国产操作系统迎来真正转折点

开源鸿蒙跨平台开发者社区

HarmonyOS 鸿蒙PC平台三方库移植：使用 vcpkg 移植 libzen（ZenLib)

开源鸿蒙跨平台开发者社区

FinClip vs React Native：两大跨平台方案的深度对比

2026年跨平台开发领域，FinClip与ReactNative呈现差异化技术路线。ReactNative作为传统跨端UI框架，通过JavaScript桥接原生组件实现高性能渲染；FinClip则是小程序容器技术，支持多终端覆盖和微信小程序零成本迁移。关键差异在于：FinClip具备更广的跨端能力（移动/桌面/IoT）、金融级安全合规和小程序生态优势，而ReactNative在原生交互体验和性能上