您的位置: 首页> AI模型

详解YOLOv8网络结构

匿名上传

发布时间:2026-02-09 13:00:02

YOLOv8网络使用的模块：

卷积模块：Conv + BatchNorm + SiLU
瓶颈模块：减少计算复杂度和参数数量，同时保留模型性能
C2f模块：高效多分支多特征提取
空间金字塔快速（SPPF）模块：捕捉多尺度信息
检测模块：边界框检测和类别检测

1. Backbone：C2f 高效特征提取模块（核心创新）

Backbone负责特征提取。C2f模块是YOLOv8 Backbone的核心，它取代了YOLOv5中的C3模块，在轻量化和梯度流方面表现更优。

1.1 C2f模块结构

为什么非要Split？

参数共享：两个分支共享底层特征提取
特征一致性：来自同一卷积，特征分布相似
梯度统一：反向传播时梯度来源一致

结构细节：

输入 → 卷积 → 分割为两部分：
  分支1: 直接传递（捷径连接）
  分支2: 通过 n 个 Bottleneck 堆叠
     每个Bottleneck结构：
       输入 → Conv1x1(降维) → Conv3x3(特征提取) → Add(残差连接)
  融合：分支1 + 分支2 → 卷积输出

1.2 C2f内部原理

这个收集中间层输出再统一融合的思想，类似于 ELAN / E-ELAN 家族（YOLOv7 里提出的高效层聚合思想），也类似 DenseNet 的“密集连接”精神：保留每个阶段的中间特征，而不是只拿最后一层。

1.3 C2f设计优势

1.3.1 梯度流动（Gradient Flow）

多分支结构促进梯度反向传播，缓解梯度消失

1.3.2 特征多样性（Multi-scale / Multi-stage Features）

1.3.3 计算效率（Parameter / FLOPs Efficiency）

1.4 与 CSP / C3 / ELAN / C3k2 的关系

1.4.1 CSP / CSPDarknet（YOLOv4）

Cross Stage Partial（跨阶段部分残差）思想：把特征分成两路，一路走残差堆叠，另一路保持相对原样，最后再合并。这可减少重复计算，又保持梯度流动。

其中的 CBL 模块就是Conv2D + BN + LeakyReLU 的组合，这里的 bottleneck 可以根据传入的参数决定是否带有 shortcut。如果是带有 shortcut 的话，就是正统的 residual 模块了，如果没有 shortcut，就是单纯的 2 个 CBL 串联。

1.4.2 C3（YOLOv5）

基于 CSP 的 Bottleneck 堆叠；在 PyTorch 化实现里叫 C3，是 YOLOv5 主干/颈部的基本块。它也会做通道分支，但中间特征的保留/聚合方式相对固定，聚合点更单一。

C3 模块因为内部有 3 个卷积模块，所以被命名为 C3 模块，去掉了 BottleneckCSP 中一些繁杂的 Conv2d 操作，并且将激活函数从 LeakyReLU 换成了 SiLU。 CBL 模块也因此变成了 CBS 模块。CBS 模块：Conv + BatchNorm + SiLU。和 BottleneckCSP 一样，内部的 bottleneck 也分为带 shortcut 和不带 shortcut 两种。

1.4.3 E-ELAN（YOLOv7）

Efficient Layer Aggregation Networks 的扩展。更激进地把中间层输出聚合在一起，强调“多分支并行 + 多阶段特征显式收集”。E-ELAN 让网络在不增加很多参数的情况下，仍能扩大有效深度和表达力，推动了 YOLOv7 的精度-速度前沿。

上图可知演变过程：VoVNet-->CSPVoVNet-->ELAN-->E-ELAN

VoVNet 通过减少 DenseNet 的连接个数提升网络效率；
CSPNet 通过 split 操作增加梯度信息，减少计算量；
ELAN 则是通过考虑最短梯度路径使得可以堆叠更多 block；
E-ELAN更进一步使用 expand, shuffle, merge cardinality 来进一步让网络堆叠更多 block。

1.4.4 C2f（YOLOv8起）

可以理解成把 CSP 的分流哲学和 ELAN 的“中间特征显式保留”合体，形成一种既轻量又高梯度流效率的模块。
C2f 更利于 PyTorch/TensorRT 导出，结构规则、重复性高，易于自动扩展成 n/s/m/l/x 多个模型尺度。

1.4.5 C3k2 / C3k（YOLOv11等后续演进）

C3k(可定制卷积核)：C3k是C3模块的一个变体，主要改进在于它允许自定义卷积核的大小（kernel size)。可以更好地适应不同尺寸的图像特征，尤其是当我们需要捕捉更大范围的上下文信息时。当k设置为3时候，C3k在功能上与C3相等。
C3k2结合了C2f的速度优势和C3k的灵活性。它允许在运行时选择是否使用C3k层来处理特征，提供了很高的可配置性。
当c3k参数设置为True时，C3k2将使用c3k层，能够利用不同卷积核大小的灵活性；否则，它将使用标准的瓶颈层，与c2f类
似。

从这个族谱你可以看出：

C2f 在 YOLOv7（E-ELAN）思路和 YOLOv5（C3/CSP）思路之间的折中：它保留“显式多阶段特征聚合 + 强梯度流”，但努力把它做得更规整、更轻、更适合自动缩放。

1.5 C2f对YOLO网络的优势

1.6 C2f总结

2. Neck：PAFPN（Path Aggregation Feature Pyramid Network）

YOLOv8沿用并优化了PANet结构，实现多尺度特征的有效融合。

Neck部分负责多尺度特征融合，通过将来自Backbone不同阶段的特征图进行融合，增强特征表示能力。具体来说，YOLOv8的Neck部分包括以下组件:

SPPF模块(Spatial Pyramid Pooling Fast)：用于不同尺度的池化操作，将不同尺度的特征图拼接在一起，提高对不同尺寸目标的检测能力。
PAA模块(Probabilistic Anchor Assignment)：用于智能地分配锚框，以优化正负样本的选择，提高模型的训练效果。
PAN模块(Path Aggregation Network)：包括两个PAN模块，用于不同层次特征的路径聚合，通过自底向上和自顶向下的路径增强特征图的表达能力。

结构流程：

Backbone输出特征图(P3,P4,P5) → 
上采样路径（自顶向下）：
  P5 → 上采样 → 与P4融合 → 卷积 → 上采样 → 与P3融合
下采样路径（自底向上）：
  融合后的P3 → 下采样 → 与P4融合 → 下采样 → 与P5融合
最终输出三个尺度的特征图

2.1 SPPF模块结构

SPPF模块(Spatial Pyramid Pooling Fast): 用于不同尺度的池化操作，将不同尺度的特征图拼接在一起，提高对不同尺寸目标的检测能力。

2.1.1 SPP模块结构

SPP模块是何凯明大神在2015年的论文《Spatial Pyramid Pooling in Deep Convolutional Networks for VisualRecognition》中被提出。

SPP为空间金字塔池化结构，主要是为了解决两个问题:

有效避免了对图像区域裁剪、缩放操作导致的图像失真等问题;
解决了卷积神经网络对图相关重复特征提取的问题，大大提高了产生候选框的速度，且节省了计算成本。

2.1.2 SPPF模块结构

这个是YOLOv5 作者Glenn Jocher 基于SPP提出的，速度较SPP快很多，所以叫SPP-Fast。SPPF是空间金字塔池化的快速版本，它是一种在卷积神经网络中用于处理不同尺寸输入的技术。SPPF的核心思想是通过对输入特征图进行不同尺度的池化操作，生成固定长度的特征向量，从而使得网络能够处理任意尺寸的输入图像。

2.2 PAN-FPN模块结构

YOLOv8 中入了 PAN-FPN (Path Aggregation Network - Feature Pyramid Network) 为其特征金字塔网络，进一步增强了多尺度特征的表示能力。PAN-FPN 通过双向路径的融合，使得特征图包含更丰富的上下文信息和语义信息，增强了模型对不同尺度目标的检测能力。

相对于YOLOv5或者YOLOv6，YOLOv8将C3模块以及RepBlock替换为了C2f，同时细心可以发现，相对于YOLOv5和YOLOv6，YOLOv8选择将上采样之前的1×1卷积去除了，将Backbone不同阶段输出的特征直接送入了上采样操作。

YOLOv5的Neck部分的结构图如下：

YOLOv6的Neck部分的结构图如下：

YOLOv8的结构图：

FPN网络pytorch代码

class FPN(nn.Module):
 
    def __init__(self, num_blocks, num_classes, back_bone='resnet', pretrained=True):
        super(FPN, self).__init__()
        self.in_planes = 64
        self.num_classes = num_classes
 
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
 
        BatchNorm = nn.BatchNorm2d
        self.back_bone = build_backbone(back_bone)
 
        # Bottom-up layers
        self.layer1 = self._make_layer(Bottleneck,  64, num_blocks[0], stride=1)
        self.layer2 = self._make_layer(Bottleneck, 128, num_blocks[1], stride=2)
        self.layer3 = self._make_layer(Bottleneck, 256, num_blocks[2], stride=2)
        self.layer4 = self._make_layer(Bottleneck, 512, num_blocks[3], stride=2)
 
        # Top layer
        self.toplayer = nn.Conv2d(2048, 256, kernel_size=1, stride=1, padding=0)  # Reduce channels
 
        # Smooth layers
        self.smooth1 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
        self.smooth2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
        self.smooth3 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
 
        # Lateral layers
        self.latlayer1 = nn.Conv2d(1024, 256, kernel_size=1, stride=1, padding=0)
        self.latlayer2 = nn.Conv2d( 512, 256, kernel_size=1, stride=1, padding=0)
        self.latlayer3 = nn.Conv2d( 256, 256, kernel_size=1, stride=1, padding=0)
 
    def _upsample(self, x, h, w):    # upsample use 'bilinear' interpolate
        return F.interpolate(x, size=(h, w), mode='bilinear', align_corners=True)
 
 
    def _make_layer(self, Bottleneck, planes, num_blocks, stride):
        strides = [stride] + [1]*(num_blocks-1)
        layers = []
        for stride in strides:
            layers.append(Bottleneck(self.in_planes, planes, stride))
            self.in_planes = planes * Bottleneck.expansion
        return nn.Sequential(*layers)
 
    def _upsample_add(self, x, y):
        '''Upsample and add two feature maps.
        Args:
          x: (Variable) top feature map to be upsampled.
          y: (Variable) lateral feature map.
        Returns:
          (Variable) added feature map.
        Note in PyTorch, when input size is odd, the upsampled feature map
        with `F.upsample(..., scale_factor=2, mode='nearest')`
        maybe not equal to the lateral feature map size.
        e.g.
        original input size: [N,_,15,15] ->
        conv2d feature map size: [N,_,8,8] ->
        upsampled feature map size: [N,_,16,16]
        So we choose bilinear upsample which supports arbitrary output sizes.
        '''
        _,_,H,W = y.size()
        return F.interpolate(x, size=(H,W), mode='bilinear', align_corners=True) + y
 
 
    def forward(self, x):
        # Bottom-up
        c1 = F.relu(self.bn1(self.conv1(x)))
        c1 = F.max_pool2d(c1, kernel_size=3, stride=2, padding=1)
        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)

        # Top-down
        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))
 
        # Smooth
        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
 
        return p2, p3, p4, p5

2.2.1 特征金字塔网络(FPN)

论文： [1612.03144] Feature Pyramid Networks for Object Detection

FPN 通过结合 深层语义信息（高层特征）和 浅层细节信息（低层特征），构建多尺度的特征金字塔，显著提升目标检测模型对不同尺寸目标的检测能力。

在YOLOv8中，FPN主要负责构建从低层到高层的多尺度特征图。其主要过程如下:

1.自顶向下路径:

从深层特征开始，逐层向上采样。
每一层的上采样特征与相应的低层特征进行融合，以补充空间信息和增强语义信息。

2.横向连接:

利用1x1卷积调整通道数，使得上采样特征与低层特征的通道数一致。
通过逐层相加的方式进行特征融合。

FPN网络大致结构如下：一个自底向上的线路、一个自顶向下的线路、横向连接

结来说，FPN = top-down的融合 + 在金字塔各层进行prediction

FPN（Feature Pyramid Network） 通过自顶向下的路径构建特征金字塔，但存在两个关键问题：

语义信息稀释：深层特征经过多次上采样传递到浅层时，丢失细节信息。
定位精度不足：小目标依赖浅层特征，但浅层语义信息较弱。

2.2.2 路径聚合网络(PAN)

论文：2018年在CVPR [1803.01534] Path Aggregation Network for Instance Segmentation

PANet的核心创新在于引入了自底向上的路径聚合机制，形成了双向特征融合路径，解决了FPN单向信息传递的局限性。这一改进使得低层的高分辨率特征能够更有效地传递到高层，同时高层的语义信息也能充分影响低层特征，实现了更全面的多尺度特征交互。

PAN是在FPN的基础上，进一步增强特征金字塔网络的结构，具体过程如下:

1.自底向上的路径:

从底层特征开始，逐层向上传递特征。
每一层的特征图通过自底向上的路径，与高层特征图进行融合。

2.特征融合:

在每一层，将自顶向下路径和自底向上路径的特征进行融合，确保每一层的特征都包含不同尺度的信息。

2.2.3 FPN和PANet区别

FPN更适合基础目标检测任务和资源受限环境，例如轻量化移动端部署或实时视频流处理。其简单高效的结构设计使其在计算资源有限的场景下仍能保持良好的检测性能。

PANet则适用于需要高精度的场景，特别是在处理极小目标或复杂背景环境时。例如在自动驾驶系统中检测车辆周围的小障碍物，或在医学图像分中识别微小病灶时，PANet的双向特征融合和自适应特征池化技术能够显著提升检测和分割的准确性。

FPN的参数量约为25M，FLOPs约为200B；而PANet的参数量增加到32.5M，FLOPs达到235.6B。

2.3 Neck创新点

双融合路径：
- 上采样路径：传播强语义信息（利于分类）
- 下采样路径：传播强定位信息（利于检测）
跨尺度连接：使用Concat而非Add，保留更多特征信息
适配不同尺度：针对80×80（小目标）、40×40（中目标）、20×20（大目标）特征图优化融合策略。

2.4 PAN-FPN在YOLOv8中的具体实现

在YOLOv8中，PAN-FPN的实现结合了FPN和PAN的优点，具体如下:

3. Head：Decoupled-Head + DFL + CIoU（检测头革新）

YOLOv8将检测头改为 解耦形式，并引入了先进的损失函数。

在YOLOv8中，Head部分负责将Neck部分输出的特征进行进一步处理，以生成最终的检测结果。Head部分的主要功能是将特征图转换为目标检测所需的具体信息，包括类别、位置和置信度。

解耦头结构：

共享特征 → 三个独立分支：
  1. 分类分支：Conv + Conv → 类别置信度
  2. 回归分支：Conv + Conv → 边界框坐标
  3. 分布焦点分支：Conv + Conv → 边界框分布（DFL）

3.1 卷积层和激活函数

Head部分通常包括若干卷积层和激活函数。这些卷积层用于进一步处理Neck部分输出的特征图，以提取更多的高级特征。常见的激活函数包括ReLU或Leaky ReLU，能够引入非线性，从而提升特征表达能力。

3.2 预测层 (Prediction Layers)

在YOLOv8中，预测层是关键组件，负责生成最终的检测结果。预测层包括三个主要输出:

边界框回归(Bounding BoxRegression)：预测目标的位置和大小。通常输出四个值，分别对应边界框的中心坐标(x,y)和宽度、高度(w,h)。
置信度评分(Confidence Scores)：预测每个边界框内是否包含目标，以及目标的置信度。
类别概率(Class Probabilities)：预测目标属于每个类别的概率。

3.2.1 DFL（Distribution Focal Loss）

传统：直接回归边界框坐标
DFL：将坐标预测建模为离散概率分布
  步骤：
    1. 预测边界框的分布（如y = Σ[P(i)×i]）
    2. 使用Focal Loss优化分布
  优势：
    - 更准确的小目标检测
    - 对模糊边界更鲁棒

3.2.2 损失函数组合

总损失 = 分类损失 + 回归损失 + DFL损失

分类损失：BCEWithLogitsLoss 或 VarifocalLoss（可选）
回归损失：CIoU Loss（考虑重叠、中心距离、长宽比）
DFL损失：监督边界框分布学习

其他优化

除了上述结构外，YOLOv8还引入了一些新的优化技术，如:

Anchor-free机制:减少了锚框的超参数设置，通过直接预测目标的中心点来简化训练过程。
自适应非大值抑制NMS(Non-Maximum Suppression):改进了传统的NMS算法，通过自适应调整阈值，减少误检和漏检，提高检测精度。最终的预测结果会经过非极大值抑制处理，以去除重复的检测框。NMS保留置信度最高的边界框，并移除与之重叠度高的其他边界框，确保每个目标只被检测一次。
自动混合精度训练(Automatic Mixed Precision Training):通过在训练过程中动态调整计算精度，加快训练速度，同时减少显存占用。

总结复习

（1）特征金字塔网络是啥？（2）空间金字塔池化是啥？（3）C2f是啥？（4）路径聚合网络是啥？（5）特征金字塔网络和路径聚合网络区别？（5）YOLO为什么使用两层特征金字塔结构？（7）预测层会输出什么？（8）怎么去除重复的检测框和减少误检和漏检？NMS （9）为什么检测小物体需要用大的特征图？

（10）为什么要用双分支？

丰富特征表示：不同分支学习不同特征
梯度多样性：缓解梯度消失，帮助训练
信息冗余：提升模型鲁棒性

（11）连接处的c和a的区别？

连接处的c通常代表"拼接/连接（concatenate）"操作 连接处的a是add（加法操作/残差连接）

（12）TD和BU是什么？

TD = Top-Down = 自上而下 = 语义信息下传
BU = Bottom-Up = 自下而上 = 位置信息上传

参考资料

[1]什么是 C2f： YOLOv8 中引入的一种高效特征提取模块_c2f模块

[2]万字详解YOLOv8网络结构Backbone/neck/head以及Conv、Bottleneck、C2f、SPPF、Detect等模块_yolov8网络架构

本站提供的所有下载资源均来自互联网，仅提供学习交流使用，版权归原作者所有。如需商业使用，请联系原作者获得授权。如您发现有涉嫌侵权的内容，请联系我们邮箱:alixiixcom@163.com

热门小说大全app

热门小说大全

立即下载