交大荣昶笔记#2 | YOLO

2025-08-02

2 Stage Detection

筛选 + 滑动窗口分类

计算慢

仅使用一个CNN网络,速度快

在一次CNN计算中,直接从原始图像上预测物体类别和位置边界框

需要预测:

使用归一化,确保不同尺寸的物品的Bounding Box大小接近

每个box都有一个置信度

onfidence = P_r(Object)*IOU_{pred}^{truth}

其中 P_r(Object) 是含有目标的可能性,IOU(interseection over union) 为预测框与实际框的交并比

置信度的计算结果必定为一个0到1的值

每一个单元格预测 C 个类别概率

输入图像,图像被处理为 S*S*N 的网格结构

则最后有 N = S * S * (B * 5 + C)
其中:

解决一个目标被多次检测的问题

P_r(class_i|object)*P_r(object)*IOU_{pred}^{truth}=P_r(class_i)*IOU_{}

预测\实际	正例	负例
预测为正例	TP	FP
预测为负例	FN	TN

F1分数是精确率(Precision)和召回率(Recall)的调和平均值:

F1 = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}} = \frac{2*Precision*Recall}{Precision + Recall}

mAP计算步骤:

对每个类别:
- 按照置信度从高到低排序所有预测框
- 计算每个预测框对应的Precision和Recall
- 绘制PR曲线(Precision-Recall曲线)
- 计算PR曲线下的面积,即AP(Average Precision)
对所有类别的AP取平均,得到mAP:

mAP = \frac{1}{n}\sum_{i=1}^{n}AP_i

其中n为类别数量

mAP越高说明检测效果越好,是目标检测中最常用的评估指标。