导读

风电叶片长期暴露在高空环境中,裂纹、烧蚀、剥落、锈蚀等表面缺陷不仅影响发电效率,严重时还会导致叶片断裂。无人机巡检替代了人工高空作业,但拍回来的图像仍然需要高效的检测模型来自动识别缺陷。问题在于:叶片缺陷尺度差异大、边缘信息模糊、背景纹理复杂,通用检测模型往往精度不足。

郑州大学联合嵩山实验室的研究团队提出了 CEA-DETR,以 RT-DETR-r18为基线,从骨干网络、特征融合和注意力机制三个环节进行针对性改进。骨干网络引入CSME 模块(多尺度池化 + 边缘增强 + 双域特征选择),特征融合采用 EMSFFN(BiFPN 加权融合 + 高效上采样 + 跨阶段深度卷积),编码器中的自注意力替换为ASSA(自适应稀疏自注意力,密集与稀疏双分支动态融合)。在自建的 4468 张风电叶片缺陷数据集上,CEA-DETR 的 mAP50 达到 89.4%,比基线提+3.1%;mAP50:95 达到 68.9%(+6.5%);同时参数量减少20%(19.9MB→15.9MB),GFLOPs 降低约 8%(57.0→52.4),实现了精度提升与计算开销下降的双重改进。


论文信息

  • 标题:CEA-DETR: A Multi-Scale Feature Fusion-Based Method for Wind Turbine Blade Surface Defect Detection
  • 作者:Xudong Luo, Ruimin Wang, Jianhui Zhang, Junjie Zeng, Xiaohang Cai
  • 机构:郑州大学 网络空间安全学院、郑州大学 计算机与人工智能学院、嵩山实验室
  • 期刊:Sensors 2026, 26(7), 2115
  • 发表日期:2026年3月28日

一、风电叶片缺陷检测:尺度差异大、边缘模糊、背景复杂

风电叶片长度通常在数十米以上,无人机拍摄的图像中缺陷类型多样:裂纹(crack)细长且边缘不规则,烧蚀(burning)面积较大但与正常区域过渡模糊,剥落(peel)和变形(deformity)的形态各异,锈蚀(rusty)和污垢(dirt)则可能与叶片表面纹理混淆。

这些特点给检测模型带来三个核心难题:

  1. 多尺度问题:不同缺陷尺寸跨度大,细小裂纹和大面积剥落需要模型同时捕捉细粒度和全局特征。
  2. 边缘信息丢失:叶片表面缺陷的边界往往不清晰,多次下采样后边缘细节容易被模糊化,影响定位精度。
  3. 背景干扰:叶片表面的自然纹理、光照反射等与缺陷特征相似,容易导致误检。

论文以 RT-DETR-r18为基线模型。RT-DETR 本身是一个高效的实时检测Transformer,但直接应用于风电叶片场景时,其 mAP50 为 86.3%,mAP50:95 为 62.4%,在多尺度特征提取和边缘细节保留上存在改进空间。


二、CEA-DETR:三个模块改进骨干、融合和注意力

CEA-DETR 的改进集中在三个模块上,分别对应特征提取、特征融合和编码器注意力三个环节。

2.1 CSME骨干网络:多尺度边缘增强特征提取

CSME(Cross-Scale Multi-Edge feature Extraction) 替换原有的 ResNet18 骨干网络,包含三个子组件:

  • 多尺度池化:使用 3x3、6x6、9x9、12x12 四种尺度的池化操作,捕捉不同大小的缺陷特征。
  • EIEM(Edge Information Enhancement Module)边缘增强模块:专门强化缺陷边缘信息,缓解下采样过程中边缘细节丢失的问题。
  • DSM(Dual-domain Selection Module)双域特征选择:包含空间域 SSM 和频率域 FSM 两个分支,分别在空间维度和频率维度进行特征筛选,综合两种域的互补信息。

2.2 EMSFFN:高效多尺度特征融合网络

EMSFFN(Efficient Multi-Scale Feature Fusion Network) 替换 RT-DETR 原有的 CCFM 特征融合模块,同样包含三个子组件:

  • BiFPN 自适应加权融合:为不同尺度的特征分配可学习的权重,自适应地平衡浅层(高分辨率定位信息)和深层(高语义信息)特征的融合比例。
  • EUCB(Efficient Up-sampling Convolution Block)高效上采样模块:在上采样过程中保留更多细节信息。
  • CSMDC(Cross-Stage Multi-scale Depthwise Convolution)跨阶段多尺度深度卷积:跨阶段连接不同层级特征,使用深度可分离卷积降低计算量。

2.3 ASSA-AIFI:自适应稀疏自注意力编码器

ASSA(Adaptive Sparse Self-Attention) 替换 RT-DETR 编码器中原有的标准自注意力(AIFI),设计了双分支结构:

  • Dense Self-Attention 分支:对所有 token 计算全局注意力,保留完整的上下文信息。
  • Sparse Self-Attention 分支:使用 squared ReLU 激活函数替代 Softmax,自动将低相关性 token 对的注意力权重压为零,从而在保留高响应交互的同时降低计算复杂度。
  • 可学习权重融合:两个分支的输出通过可学习的权重参数动态融合,让模型自适应地在全局上下文和局部聚焦之间取得平衡。

图片来源于原论文


三、实验结果:mAP50达89.4%,参数量和计算量同步下降

数据集

论文使用自建的风电叶片缺陷数据集,基本信息如下:

项目参数
图像数量4468 张
图像分辨率640×640
缺陷类别6类(crack, burning, peel, deformity, rusty, dirt)
标注工具LabelImg
数据划分训练:验证:测试 = 7:2:1

训练环境:Ubuntu 22.04,Intel Xeon 8255C,NVIDIA RTX 3090,PyTorch 2.1.2,batch size 16,AdamW 优化器,学习率 1e-4,weight decay 1e-4,训练 200 epochs。

图片来源于原论文

最终模型与基线对比

指标RT-DETR-r18 基线CEA-DETR变化
mAP5086.3%89.4%+3.1%
mAP50:9562.4%68.9%+6.5%
Params19.9MB15.9MB-20.1%
GFLOPs57.052.4-8.1%

CEA-DETR 不仅在精度上实现了提升,同时参数量从 19.9MB 降至 15.9MB,GFLOPs 从 57.0 降至 52.4。

骨干网络对比

论文将 CSME 与六种骨干网络在相同框架下进行了对比:

骨干网络P/%R/%Params/MBmAP50/%
ResNet1887.383.419.986.3
ResNet5088.083.843.186.9
FasterNet87.182.614.685.7
ManbaOut86.482.215.983.4
SwinTransformer87.984.036.586.4
EfficientViT86.883.514.186.6
CSME89.585.915.888.2

CSME 以 15.8MB 参数量取得了 88.2% 的 mAP50,高于所有对比方案。相比 ResNet18 基线,mAP50 提升 +1.9%,同时参数量从 19.9MB 降至 15.8MB。相比参数量最大的 ResNet50(43.1MB),CSME 的 mAP50 仍高出 +1.3%,但参数量仅为其 36.7%。在轻量化骨干中,CSME 也优于 FasterNet(+2.5%)、ManbaOut(+4.8%)和 EfficientViT(+1.6%)。

特征融合模块对比

融合模块P/%R/%Params/MBmAP50/%
CCFM(基线)87.383.419.986.3
SlimNeck86.483.219.486.1
BiFPN87.183.520.686.2
GDNeck87.685.822.386.6
MAFPN87.886.022.987.1
EMSFFN88.486.320.187.6

EMSFFN 的 mAP50 达到 87.6%,比基线 CCFM 提升 +1.3%,比性能第二的 MAFPN 高出 +0.5%。参数量为 20.1MB,低于 GDNeck(22.3MB)和 MAFPN(22.9MB)。值得注意的是,单独使用 BiFPN 的效果仅为 86.2%(与基线接近),但 EMSFFN 将 BiFPN 与 EUCB 和 CSMDC 组合后实现了更大的提升,说明三个子组件之间存在互补效应。


四、消融实验:三个模块各贡献多少?

从骨干对比和融合对比的数据,可以分析各模块的独立贡献:

改进模块关键提升改进环节
CSMEmAP50 从 86.3% 提升至 88.2%(+1.9%)骨干网络
EMSFFNmAP50 从 86.3% 提升至 87.6%(+1.3%)特征融合
ASSA-AIFI与 CSME/EMSFFN 联合后最终 mAP50 达 89.4%编码器注意力

从实验数据中可以观察到几个值得关注的点:

CSME 骨干是精度提升的核心驱动力。在单独替换骨干的对比实验中,CSME 取得了最高的 mAP50(88.2%),Recall 也最高(85.9%),同时参数量保持在 15.8MB 的较低水平。多尺度池化(4种尺度)+ 边缘增强 + 双域特征选择的组合设计,使其在捕捉多尺度缺陷特征和保留边缘信息两方面均优于对比方案。

EMSFFN 的组合效应优于单一 BiFPN。单独使用 BiFPN 时 mAP50 仅为 86.2%,但 EMSFFN 将其与高效上采样(EUCB)和跨阶段深度卷积(CSMDC)整合后达到 87.6%,说明特征融合环节中上采样质量和跨阶段连接同样重要。

三模块联合实现了参数量和计算量的同步下降。最终模型的参数量(15.9MB)低于基线 ResNet18 骨干的参数量(19.9MB),GFLOPs 从 57.0 降至 52.4。这主要得益于 CSME 用轻量化设计替换了 ResNet18,以及 ASSA 中稀疏注意力分支减少了编码器的计算开销。

图片来源于原论文


五、总结与思考

本文提出的 CEA-DETR 以 RT-DETR-r18 为基线,通过 CSME 骨干网络、EMSFFN 特征融合网络和 ASSA 自适应稀疏自注意力三个模块的改进,在自建的 4468 张风电叶片缺陷数据集上将 mAP50 从 86.3% 提升至 89.4%(+3.1%),mAP50:95 从 62.4% 提升至 68.9%(+6.5%),同时参数量从 19.9MB 降至 15.9MB(-20.1%),GFLOPs 从 57.0 降至 52.4(-8.1%)。

模型轻量化为边缘部署提供了基础。15.9MB 参数量和 52.4 GFLOPs 的计算开销,相比基线均有下降,对于无人机机载推理或风电场边缘计算节点部署较为友好。论文报告 CEA-DETR 的推理速度为 63.2 FPS(基线 RT-DETR-r18 为 65.5 FPS),速度略有下降但仍保持了良好的实时性,说明精度提升并未以大幅牺牲推理效率为代价。

本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:alixiixcom@163.com