一、整体总结

研究领域:

本文属于计算机视觉领域,具体为面向智能铁路系统的语义分割研究,重点关注恶劣环境下的实时语义分割问题

解决问题:

(1)恶劣环境对分割性能的影响:铁路场景中存在雨、雪、雾、低光照及隧道等复杂条件,这些因素会导致目标遮挡、特征缺失和边界模糊,从而降低语义分割精度。(2)现有方法对图像内在信息利用不足:当前主流方法主要通过优化网络结构提升性能,但缺乏对图像频率信息(如高频边缘和低频背景)的有效利用。(3)实时性与精度难以兼顾:高精度模型通常计算复杂、速度较慢,而轻量化模型虽速度较快,但精度不足,难以满足实际应用需求。

使用技术:

本文提出了一种基于小波变换引导学习的语义分割模型 WaveCRNet,其核心思想是将图像的频率信息引入深度网络,通过小波增强、注意力融合、复小波边界重建及改进池化模块实现特征域与频率域的协同建模,从而提升模型在复杂环境下的分割性能。

实验结果:

在RailSem19数据集上的实验结果为:mIoU:63.7%、推理速度:87 FPS,表明WaveCRNet在保证实时性的同时显著提升了分割精度,并优于多种主流方法。

二、结构精读

1. 引言(Introduction)

主要介绍研究背景与问题来源。首先指出语义分割在铁路智能驾驶中的重要性,其次分析恶劣环境对分割性能的影响,包括天气干扰、光照不足和复杂场景等因素。最后提出本文的核心思想,即利用小波变换引入频率信息,从而提升模型在复杂环境下的鲁棒性。

2. 相关工作(Related Work)

(1)小波变换

介绍小波变换在图像处理中的应用,包括去噪、特征提取和多尺度分析等,并指出其在提取高频细节方面具有优势。

(2)实时语义分割

综述了BiSeNet、DDRNet、PIDNet等方法,这些方法主要通过网络结构设计提升速度和精度,但缺乏对频率信息的利用。

(3)铁路场景分割

指出现有研究多集中于轨道区域检测,缺乏对复杂多类别铁路场景的全面语义分割。

总结:小波变换能够提取图像的多尺度频率信息,在细节表达方面具有优势;现有实时语义分割方法主要依赖网络结构优化,缺乏对频率信息的利用;同时,铁路场景具有多类别和复杂环境特性,传统方法难以满足需求,因此有必要引入频率信息以提升分割性能。


3. 方法(Method)

(1)总体框架

WaveCRNet基于三分支结构,包括P分支(高分辨率特征)、I分支(上下文信息)和D分支(边界信息),分别对应PID控制器中的比例、积分和微分部分,通过三分支协同建模实现细节、语义和边界信息的联合学习。

上部分:首先通过可微离散小波变换(DWT)对输入图像进行频率分解,获得高频与低频信息并完成特征增强;随后将增强后的特征输入基于PID思想构建的三分支网络,其中P分支负责细节保持,I分支负责语义上下文建模,D分支结合DCRM模块强化边界信息;在特征融合过程中,引入WAPM模块实现小波信息与深层特征的注意力引导融合,并通过LAPPM模块进行多尺度上下文聚合;最终通过分割头(Seg Head)与边界头(Boundary Head)输出语义分割结果,并结合OHEM损失与边界损失进行联合优化,从而实现复杂铁路场景下高精度与实时性的统一。

下部分:将WaveCRNet类比为引入小波先验的PID控制器:其中P分支对应比例项,用于响应当前特征并引入小波增强信息;I分支对应积分项,用于累积全局语义上下文;D分支对应微分项,通过小波变换建模特征变化以强化边界信息;三者经融合后实现对分割结果的动态调节,从而在精度与稳定性之间取得平衡,并有效抑制传统方法中的过冲(Overshoot)问题。这部分的意义在于,它不仅提出了一个网络结构,还从理论上解释了为什么该结构能够提升性能。


(2)小波信息增强算法

首先对输入图像进行灰度转换,然后通过二维小波变换将图像分解为低频分量(LL)和高频分量(LH、HL、HH)。

DWT(Discrete Wavelet Transform,离散小波变换)

将图像分解为低频(整体信息)和高频(边缘细节)的多尺度表示方法,用于增强特征表达能力。

二维小波变换(2D-DWT)

把图像分成:

分量  含义
LL 低频(整体)
LH 水平边缘
HL 垂直边缘
HH 对角线细节

随后对各频率分量进行归一化处理,并对高频信息进行加权增强,以突出边缘与纹理特征。

最后通过阈值筛选关键区域,进一步强化有效特征并抑制噪声。

其本质是:增强关键边缘信息,减少无效噪声干扰。

也就是:原图 → 分解 → 强化边缘 → 去噪 → 重建特征

二维离散小波变换(2D-DWT):

  • 先对图像的行分别用低通滤波器 L (n)(保留平滑、低频信息)和高通滤波器 H (n)(捕捉边缘、高频细节)滤波,再做 2 倍下采样;
  • 再对结果的列重复同样操作,最终把一张图拆成 4 个子带

逆变换(2D-IDWT):

是 2D-DWT 的反向操作

  • 把 LL/HL/LH/HH 四个子带先做 2 倍上采样,再用对应的逆滤波器分别处理行和列;
  • 最终将频域子带信息合并,还原出原始二维图像。

首先对二维灰度图像依次通过低通核 L (n) 与高通核 H (n) 进行滤波并 2 倍下采样,经两级分解得到 LL(低频近似)、HL(水平高频)、LH(垂直高频)、HH(对角高频)四个子带;随后可通过 2D-IDWT 将四个子带重构为原始铁路图像,实现了铁路场景图像的多尺度频域分解与重构,为后续特征提取或图像增强提供了频域分析基础。


(3)WAPM模块

小波引导注意力模块,通过自注意力机制融合频率特征与语义特征,引导模型关注关键区域。

该模块将小波特征与语义特征进行融合,并利用自注意力机制建模两者之间的关系。通过计算注意力权重,实现对重要区域的动态关注,从而提升模型对关键区域的感知能力。

上层:Pag Module(位置感知门控模块),对像素级特征 EP​ 进行门控调制,通过 sigmoid 激活函数生成动态权重,实现特征的选择性增强。

下层Wave-guided Attention Module(小波引导注意力模块),将融合小波频域信息的特征图 dwt_merge 与视觉特征 E 融合,通过自注意力机制(query/key/value)生成注意力增强特征 Eattn​,最终将两路输出残差融合,实现小波频域信息引导的特征精细化与定位增强,适用于铁路场景的语义分割任务。


(4)DCRM模块

基于双树复小波变换(DTCWT)的边界增强模块,用于提升边界建模能力并减少位移敏感问题。

相比传统小波变换,DTCWT具有更好的平移不变性和方向选择性,能够有效减少边界失真问题。

通过频率域重建,模型可以更准确地恢复复杂场景中的边界信息。


  (5) LAPPM(Lightweight Aggregation Pyramid Pooling Module)

轻量级多尺度池化模块,采用SoftPool实现上下文信息聚合,提高特征表达能力。

(6)损失函数设计

本文采用多分支损失函数,包括:

  • OHEM交叉熵损失,用于解决类别不平衡问题
  • 边界损失,用于增强边界检测能力
  • 联合损失,用于协同优化语义分割与边界检测任务

这些损失共同作用,提高模型在复杂场景下的泛化能力。

总结:

输入图像(Input Image)

小波信息增强(DWT_Forward + Wavelet Enhancement)

特征提取(Backbone:Stage1 / Stage2 / Stage3)

小波引导注意力融合(WAPM模块)

边界强化(DCRM模块,基于DTCWT)

多尺度上下文建模(LAPPM模块 + I分支)

三分支协同建模(PID结构:P / I / D分支)

特征融合(Feature Fusion)

分割预测(Seg Head) + 边界预测(Boundary Head)

联合损失优化(OHEM Loss + Boundary Loss + SemanticBD Loss)

输出语义分割结果(Segmentation Result)


4. 实验(Experiment)

(1)数据集与设置

使用RailSem19数据集,包含19类铁路场景目标,涵盖城市、乡村和森林等多种环境。


(2)性能对比

实验结果表明,WaveCRNet在精度和速度之间取得了更优的平衡,优于多种主流实时分割模型及Transformer模型。

整体性能对比:

  • WaveCRNet(ours)
    • 推理速度:87 FPS(满足实时性要求,且显著快于多数大模型)
    • 平均精度:63.7% mIoU(在所有对比模型中排名第一)
    • 关键优势:在速度与精度的平衡上表现最优,既超过了轻量模型(如 PIDNet-S)的精度,又比大模型(如 PIDNet-L、SCTNet-B)更快。
  • 对比基线:
    • 相比 PIDNet-L(64 FPS,61.9% mIoU):+23 FPS,+1.8% mIoU
    • 相比 SCTNet-B(84 FPS,60.1% mIoU):+3 FPS,+3.6% mIoU
    • 相比 ViT-CoMer(26 FPS,60.5% mIoU):+61 FPS,+3.2% mIoU
    • 相比实时模型 BiSeNetV2(101 FPS,52.1% mIoU):-14 FPS,+11.6% mIoU

类别精度亮点

  • WaveCRNet 在多个关键铁路相关类别上取得领先:

  • Construction(建筑):74.1%(远超其他模型,体现对复杂背景的分割能力)
  • Tram-track(有轨电车轨道):70.8%(轨道类精度突出)
  • Fence(围栏):50.7%
  • Pole(杆状物):59.9%
  • Rail-tracked(轨道):73.0%
  • On-rails(轨上区域):75.3%
  • Rail-raised(凸起轨道):68.7%
  • Embedded(嵌入式元素):52.6%同时在 Sky(天空,95.2%)、Vegetation(植被,84.8%)、Terrain(地形,66.0%) 等背景类别也保持高精度,证明模型对铁路场景全域语义的理解能力。
  • 轻量模型(T/S):速度快(>120 FPS)但精度偏低(<60% mIoU)
  • 中 / 大模型(M/L/B):精度较高(>60% mIoU)但速度慢(<86 FPS)
  • WaveCRNet:无额外骨干规模标注,却实现了 87 FPS + 63.7% mIoU,在精度 - 速度权衡上显著优于所有对比模型,是铁路场景语义分割的高效方案。

(3)可视化分析

在雨雪雾和夜间场景中,WaveCRNet能够更准确地提取目标轮廓和语义信息,表现出更强的鲁棒性。


(4)消融实验

通过逐步去除各模块,验证了以下结论:

这说明Pag(门控融合) > Add(简单相加),而 WAPM 在 Pag 基础上又加入了小波频域引导,效果更好。WAPM+DCRM 协同:是 P/D 支路的最优组合,充分释放了小波约束 PID 控制器的潜力。比 “Add+Add” 提升 2.4% mIoU,证明了小波先验与特征域融合的有效性。

  • 小波增强算法能够提升特征质量
  • DCRM显著提升边界分割能力
  • WAPM增强特征融合效果
  • DCRM-LBM 模块:在双支路模型上可稳定提升 mIoU 2.7%~3.4%,验证了小波约束 PID 控制结构的有效性。
  • 小波增强算法:高频频带是关键,算法能进一步去噪增信,最终带来 0.6% 的精度增益,证明了小波频域先验的价值。
  • 当 P 支路用 Add 时,mIoU 是 61.3%;
  • 换成 Pag 后,mIoU 提升到 62.1%(+0.8%);
  • 再升级到 WAPM(小波引导注意力模块),mIoU 进一步到 62.9%(+1.6%)。
LAPPM-LBM 性能验证

该表验证了 I 支路(PPM 变体)融合方式(Add/LBM) 的效果

DAPPM / PAPPM / LAPPM 都是 并行化的 PPM 变体

  • DAPPM:Dilated-ASPP 风格的并行空洞金字塔池化,用不同膨胀率的空洞卷积实现多尺度感受野。
  • PAPPM:Parallel Aggregation PPM,纯并行的金字塔池化结构。
  • LAPPM:Local Aggregation PPM,在并行基础上加入了局部软池化(SoftPool),保留更多细节。

结论:在 I 支路实现高效多尺度聚合,同时通过 LBM 引导分支约束,最终达成高精度与实时性的平衡。

  1. 将 PPM 串行结构改为并行(DAPPM/PAPPM/LAPPM)可提升推理速度;
  2. LBM(边界引导模块)引导三支路约束,比简单 Add 融合提升 0.9% mIoU
  3. LAPPM+LBM 组合最终实现 63.7% mIoU + 87 FPS,在精度与速度间取得最优平衡。这张表验证了 Boundary Loss(边界损失)、SemanticBD Loss(语义边界损失)、OhemCE Loss(在线难例交叉熵损失)和Lp​(就是专门作用于 P 支路预测结果 的 OhemCE 损失,用来监督 P 支路的学习过程。OhemCE:全称是 Online Hard Example Mining Cross Entropy,即在线难例挖掘的交叉熵损失。普通交叉熵会平等对待所有像素,而 OhemCE 会自动筛选出预测困难、容易分错的像素)对模型性能的影响 。边界损失和语义边界损失是提升精度的核心,OhemCE 损失进一步强化特征融合,三者协同使模型在 RailSem19 数据集上取得最优性能。
Logo

开源鸿蒙跨平台开发社区汇聚开发者与厂商,共建“一次开发,多端部署”的开源生态,致力于降低跨端开发门槛,推动万物智联创新。

更多推荐