简体中文|English
特征提取是图像识别中的关键一环,它的作用是将输入的图片转化为固定维度的特征向量,用于后续的向量检索。一个好的特征需要具备“相似度保持性”,即相似度高的图片对,其特征的相似度也比较高(特征空间中的距离比较近),相似度低的图片对,其特征相似度要比较低(特征空间中的距离比较远)。为此Deep Metric Learning领域内提出了不少方法用以研究如何通过深度学习来获得具有强表征能力的特征。
为了图像识别任务的灵活定制,我们将整个网络分为 Backbone、 Neck、 Head 以及 Loss 部分,整体结构如下图所示:
图中各个模块的功能为:
- Backbone: 用于提取输入图像初步特征的骨干网络,一般由配置文件中的
Backbone
以及BackboneStopLayer
字段共同指定。 - Neck: 用以特征增强及特征维度变换。可以是一个简单的 FC Layer,用来做特征维度变换;也可以是较复杂的 FPN 结构,用以做特征增强,一般由配置文件中的
Neck
字段指定。 - Head: 用来将 feature 转化为 logits,让模型在训练阶段能以分类任务的形式进行训练。除了常用的 FC Layer 外,还可以替换为 cosmargin, arcmargin, circlemargin 等模块,一般由配置文件中的
Head
字段指定。 - Loss: 指定所使用的 Loss 函数。我们将 Loss 设计为组合 loss 的形式,可以方便地将 Classification Loss 和 Metric learning Loss 组合在一起,一般由配置文件中的
Loss
字段指定。
Backbone 部分采用了 PP_LCNet_x2_5,其针对Intel CPU端的性能优化探索了多个有效的结构设计方案,最终实现了在不增加推理时间的情况下,进一步提升模型的性能,最终大幅度超越现有的 SOTA 模型。
Neck 部分采用了 FC Layer,对 Backbone 抽取得到的特征进行降维,减少了特征存储的成本与计算量。
Head 部分选用 ArcMargin,在训练时通过指定margin,增大同类特征之间的角度差异再进行分类,进一步提升抽取特征的表征能力。
Loss 部分选用 Cross entropy loss,在训练时以分类任务的损失函数来指导网络进行优化。详细的配置文件见通用识别配置文件。
训练数据为如下 7 个公开数据集的汇总:
数据集 | 数据量 | 类别数 | 场景 | 数据集地址 |
---|---|---|---|---|
Aliproduct | 2498771 | 50030 | 商品 | 地址 |
GLDv2 | 1580470 | 81313 | 地标 | 地址 |
VeRI-Wild | 277797 | 30671 | 车辆 | 地址 |
LogoDet-3K | 155427 | 3000 | Logo | 地址 |
iCartoonFace | 389678 | 5013 | 动漫人物 | 地址 |
SOP | 59551 | 11318 | 商品 | 地址 |
Inshop | 25882 | 3997 | 商品 | 地址 |
Total | 5M | 185K | ---- | ---- |
最终的模型效果如下表所示:
模型 | Aliproduct | VeRI-Wild | LogoDet-3K | iCartoonFace | SOP | Inshop | Latency(ms) |
---|---|---|---|---|---|---|---|
GeneralRecognition_PPLCNet_x2_5 | 0.839 | 0.888 | 0.861 | 0.841 | 0.793 | 0.892 | 5.0 |
- 预训练模型地址:通用识别预训练模型
- 采用的评测指标为:
Recall@1
- 速度评测机器的 CPU 具体信息为:
Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
- 速度指标的评测条件为: 开启 MKLDNN, 线程数设置为 10
自定义特征提取,是指依据自己的任务,重新训练特征提取模型。
下面基于GeneralRecognition_PPLCNet_x2_5.yaml
配置文件,介绍主要的四个步骤:1)数据准备;2)模型训练;3)模型评估;4)模型推理
首先需要基于任务定制自己的数据集。数据集格式与文件结构详见数据集格式说明。
准备完毕之后还需要在配置文件中修改数据配置相关的内容, 主要包括数据集的地址以及类别数量。对应到配置文件中的位置如下所示:
- 修改类别数:
Head: name: ArcMargin embedding_size: 512 class_num: 185341 # 此处表示类别数
- 修改训练数据集配置:
Train: dataset: name: ImageNetDataset image_root: ./dataset/ # 此处表示train数据所在的目录 cls_label_path: ./dataset/train_reg_all_data.txt # 此处表示train数据集label文件的地址
- 修改评估数据集中query数据配置:
Query: dataset: name: VeriWild image_root: ./dataset/Aliproduct/ # 此处表示query数据集所在的目录 cls_label_path: ./dataset/Aliproduct/val_list.txt # 此处表示query数据集label文件的地址
- 修改评估数据集中gallery数据配置:
Gallery: dataset: name: VeriWild image_root: ./dataset/Aliproduct/ # 此处表示gallery数据集所在的目录 cls_label_path: ./dataset/Aliproduct/val_list.txt # 此处表示gallery数据集label文件的地址
模型训练主要包括启动训练和断点恢复训练的功能
- 单机单卡训练
export CUDA_VISIBLE_DEVICES=0 python3.7 tools/train.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml
- 单机多卡训练
export CUDA_VISIBLE_DEVICES=0,1,2,3 python3.7 -m paddle.distributed.launch \ --gpus="0,1,2,3" tools/train.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml
注意:
配置文件中默认采用在线评估
的方式,如果你想加快训练速度,可以关闭在线评估
功能,只需要在上述命令的后面,增加 -o Global.eval_during_train=False
。
训练完毕后,在 output 目录下会生成最终模型文件 latest.pdparams
,best_model.pdarams
和训练日志文件 train.log
。其中,best_model
保存了当前评测指标下的最佳模型,latest
用来保存最新生成的模型, 方便在任务中断的情况下从断点位置恢复训练。通过在上述训练命令的末尾加上-o Global.checkpoint="path_to_resume_checkpoint"
即可从断点恢复训练,示例如下。
- 单机单卡断点恢复训练
export CUDA_VISIBLE_DEVICES=0 python3.7 tools/train.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \ -o Global.checkpoint="output/RecModel/latest"
- 单机多卡断点恢复训练
export CUDA_VISIBLE_DEVICES=0,1,2,3 python3.7 -m paddle.distributed.launch \ --gpus="0,1,2,3" tools/train.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \ -o Global.checkpoint="output/RecModel/latest"
除了训练过程中对模型进行的在线评估,也可以手动启动评估程序来获得指定的模型的精度指标。
-
单卡评估
export CUDA_VISIBLE_DEVICES=0 python3.7 tools/eval.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \ -o Global.pretrained_model="output/RecModel/best_model"
-
多卡评估
export CUDA_VISIBLE_DEVICES=0,1,2,3 python3.7 -m paddle.distributed.launch \ --gpus="0,1,2,3" tools/eval.py \ -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \ -o Global.pretrained_model="output/RecModel/best_model"
注: 建议使用多卡评估。该方式可以利用多卡并行计算快速得到全部数据的特征,能够加速评估的过程。
推理过程包括两个步骤: 1)导出推理模型;2)模型推理以获取特征向量
首先需要将 *.pdparams
模型文件转换成 inference 格式,转换命令如下。
python3.7 tools/export_model.py \
-c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \
-o Global.pretrained_model="output/RecModel/best_model"
生成的推理模型默认位于 PaddleClas/inference
目录,里面包含三个文件,分别为 inference.pdmodel
、inference.pdiparams
、inference.pdiparams.info
。
其中inference.pdmodel
用来存储推理模型的结构, inference.pdiparams
和 inference.pdiparams.info
用来存储推理模型相关的参数信息。
使用上一步转换得到的 inference 格式模型,将输入图片转换为对应的特征向量,推理命令如下。
cd deploy
python3.7 python/predict_rec.py \
-c configs/inference_rec.yaml \
-o Global.rec_inference_model_dir="../inference"
在实际使用过程中,仅仅得到特征可能并不能满足业务需求。如果想进一步通过特征检索来进行图像识别,可以参照文档向量检索。
特征提取模块作为图像识别中的关键一环,在网络结构的设计,损失函数的选取上有很大的改进空间。不同的数据集类型有各自不同的特点,如行人重识别、商品识别、人脸识别数据集的分布、图片内容都不尽相同。学术界根据这些特点提出了各种各样的方法,如PCB、MGN、ArcFace、CircleLoss、TripletLoss等,围绕的还是增大类间差异、减少类内差异的最终目标,从而有效地应对各种真实场景数据。