扫码
40.67M · 2026-04-17
风电叶片长期暴露在高空环境中,裂纹、烧蚀、剥落、锈蚀等表面缺陷不仅影响发电效率,严重时还会导致叶片断裂。无人机巡检替代了人工高空作业,但拍回来的图像仍然需要高效的检测模型来自动识别缺陷。问题在于:叶片缺陷尺度差异大、边缘信息模糊、背景纹理复杂,通用检测模型往往精度不足。
郑州大学联合嵩山实验室的研究团队提出了 CEA-DETR,以 RT-DETR-r18为基线,从骨干网络、特征融合和注意力机制三个环节进行针对性改进。骨干网络引入CSME 模块(多尺度池化 + 边缘增强 + 双域特征选择),特征融合采用 EMSFFN(BiFPN 加权融合 + 高效上采样 + 跨阶段深度卷积),编码器中的自注意力替换为ASSA(自适应稀疏自注意力,密集与稀疏双分支动态融合)。在自建的 4468 张风电叶片缺陷数据集上,CEA-DETR 的 mAP50 达到 89.4%,比基线提+3.1%;mAP50:95 达到 68.9%(+6.5%);同时参数量减少20%(19.9MB→15.9MB),GFLOPs 降低约 8%(57.0→52.4),实现了精度提升与计算开销下降的双重改进。
风电叶片长度通常在数十米以上,无人机拍摄的图像中缺陷类型多样:裂纹(crack)细长且边缘不规则,烧蚀(burning)面积较大但与正常区域过渡模糊,剥落(peel)和变形(deformity)的形态各异,锈蚀(rusty)和污垢(dirt)则可能与叶片表面纹理混淆。
这些特点给检测模型带来三个核心难题:
论文以 RT-DETR-r18为基线模型。RT-DETR 本身是一个高效的实时检测Transformer,但直接应用于风电叶片场景时,其 mAP50 为 86.3%,mAP50:95 为 62.4%,在多尺度特征提取和边缘细节保留上存在改进空间。
CEA-DETR 的改进集中在三个模块上,分别对应特征提取、特征融合和编码器注意力三个环节。
CSME(Cross-Scale Multi-Edge feature Extraction) 替换原有的 ResNet18 骨干网络,包含三个子组件:
EMSFFN(Efficient Multi-Scale Feature Fusion Network) 替换 RT-DETR 原有的 CCFM 特征融合模块,同样包含三个子组件:
ASSA(Adaptive Sparse Self-Attention) 替换 RT-DETR 编码器中原有的标准自注意力(AIFI),设计了双分支结构:
图片来源于原论文
论文使用自建的风电叶片缺陷数据集,基本信息如下:
| 项目 | 参数 |
|---|---|
| 图像数量 | 4468 张 |
| 图像分辨率 | 640×640 |
| 缺陷类别 | 6类(crack, burning, peel, deformity, rusty, dirt) |
| 标注工具 | LabelImg |
| 数据划分 | 训练:验证:测试 = 7:2:1 |
训练环境:Ubuntu 22.04,Intel Xeon 8255C,NVIDIA RTX 3090,PyTorch 2.1.2,batch size 16,AdamW 优化器,学习率 1e-4,weight decay 1e-4,训练 200 epochs。
图片来源于原论文
| 指标 | RT-DETR-r18 基线 | CEA-DETR | 变化 |
|---|---|---|---|
| mAP50 | 86.3% | 89.4% | +3.1% |
| mAP50:95 | 62.4% | 68.9% | +6.5% |
| Params | 19.9MB | 15.9MB | -20.1% |
| GFLOPs | 57.0 | 52.4 | -8.1% |
CEA-DETR 不仅在精度上实现了提升,同时参数量从 19.9MB 降至 15.9MB,GFLOPs 从 57.0 降至 52.4。
论文将 CSME 与六种骨干网络在相同框架下进行了对比:
| 骨干网络 | P/% | R/% | Params/MB | mAP50/% |
|---|---|---|---|---|
| ResNet18 | 87.3 | 83.4 | 19.9 | 86.3 |
| ResNet50 | 88.0 | 83.8 | 43.1 | 86.9 |
| FasterNet | 87.1 | 82.6 | 14.6 | 85.7 |
| ManbaOut | 86.4 | 82.2 | 15.9 | 83.4 |
| SwinTransformer | 87.9 | 84.0 | 36.5 | 86.4 |
| EfficientViT | 86.8 | 83.5 | 14.1 | 86.6 |
| CSME | 89.5 | 85.9 | 15.8 | 88.2 |
CSME 以 15.8MB 参数量取得了 88.2% 的 mAP50,高于所有对比方案。相比 ResNet18 基线,mAP50 提升 +1.9%,同时参数量从 19.9MB 降至 15.8MB。相比参数量最大的 ResNet50(43.1MB),CSME 的 mAP50 仍高出 +1.3%,但参数量仅为其 36.7%。在轻量化骨干中,CSME 也优于 FasterNet(+2.5%)、ManbaOut(+4.8%)和 EfficientViT(+1.6%)。
| 融合模块 | P/% | R/% | Params/MB | mAP50/% |
|---|---|---|---|---|
| CCFM(基线) | 87.3 | 83.4 | 19.9 | 86.3 |
| SlimNeck | 86.4 | 83.2 | 19.4 | 86.1 |
| BiFPN | 87.1 | 83.5 | 20.6 | 86.2 |
| GDNeck | 87.6 | 85.8 | 22.3 | 86.6 |
| MAFPN | 87.8 | 86.0 | 22.9 | 87.1 |
| EMSFFN | 88.4 | 86.3 | 20.1 | 87.6 |
EMSFFN 的 mAP50 达到 87.6%,比基线 CCFM 提升 +1.3%,比性能第二的 MAFPN 高出 +0.5%。参数量为 20.1MB,低于 GDNeck(22.3MB)和 MAFPN(22.9MB)。值得注意的是,单独使用 BiFPN 的效果仅为 86.2%(与基线接近),但 EMSFFN 将 BiFPN 与 EUCB 和 CSMDC 组合后实现了更大的提升,说明三个子组件之间存在互补效应。
从骨干对比和融合对比的数据,可以分析各模块的独立贡献:
| 改进模块 | 关键提升 | 改进环节 |
|---|---|---|
| CSME | mAP50 从 86.3% 提升至 88.2%(+1.9%) | 骨干网络 |
| EMSFFN | mAP50 从 86.3% 提升至 87.6%(+1.3%) | 特征融合 |
| ASSA-AIFI | 与 CSME/EMSFFN 联合后最终 mAP50 达 89.4% | 编码器注意力 |
从实验数据中可以观察到几个值得关注的点:
CSME 骨干是精度提升的核心驱动力。在单独替换骨干的对比实验中,CSME 取得了最高的 mAP50(88.2%),Recall 也最高(85.9%),同时参数量保持在 15.8MB 的较低水平。多尺度池化(4种尺度)+ 边缘增强 + 双域特征选择的组合设计,使其在捕捉多尺度缺陷特征和保留边缘信息两方面均优于对比方案。
EMSFFN 的组合效应优于单一 BiFPN。单独使用 BiFPN 时 mAP50 仅为 86.2%,但 EMSFFN 将其与高效上采样(EUCB)和跨阶段深度卷积(CSMDC)整合后达到 87.6%,说明特征融合环节中上采样质量和跨阶段连接同样重要。
三模块联合实现了参数量和计算量的同步下降。最终模型的参数量(15.9MB)低于基线 ResNet18 骨干的参数量(19.9MB),GFLOPs 从 57.0 降至 52.4。这主要得益于 CSME 用轻量化设计替换了 ResNet18,以及 ASSA 中稀疏注意力分支减少了编码器的计算开销。
图片来源于原论文
本文提出的 CEA-DETR 以 RT-DETR-r18 为基线,通过 CSME 骨干网络、EMSFFN 特征融合网络和 ASSA 自适应稀疏自注意力三个模块的改进,在自建的 4468 张风电叶片缺陷数据集上将 mAP50 从 86.3% 提升至 89.4%(+3.1%),mAP50:95 从 62.4% 提升至 68.9%(+6.5%),同时参数量从 19.9MB 降至 15.9MB(-20.1%),GFLOPs 从 57.0 降至 52.4(-8.1%)。
模型轻量化为边缘部署提供了基础。15.9MB 参数量和 52.4 GFLOPs 的计算开销,相比基线均有下降,对于无人机机载推理或风电场边缘计算节点部署较为友好。论文报告 CEA-DETR 的推理速度为 63.2 FPS(基线 RT-DETR-r18 为 65.5 FPS),速度略有下降但仍保持了良好的实时性,说明精度提升并未以大幅牺牲推理效率为代价。