MTCNN应用详解

标签: 深度学习  人脸

MTCNN应用详解

很多人应该是读过MTCNN这篇文章的,所以这里没有简单的流程介绍,如果只是简单地算法介绍,百度上已经有很多了。

开始之前,先确认以下几个问题

  • 为什么要做图像金字塔,图像金字塔在MTCNN中带来的优势和劣势分别是什么?
  • MTCNN为什么可以接受任意尺寸的图片输入?
  • 检测最小人脸尺寸ninSize为什么是12?缩放因子factor为什么是0.709?
  • 什么是边框回归?
  • 为什么ONet可以同时输出人脸位置和5个关键点位置?

现在从头开始将MTCNN梳理一遍

1、读取一张图片,按照设置的检测最小人脸参数minSize,来进行图像金字塔操作

    float scale = 12.f / minSize;
    float minWH = std::min(imgHeight, imgWidth) *scale;
    std::vector<float> scales;
    while (minWH >= 12) {
        scales.push_back(scale);
        minWH *= factor;
        scale *= factor;
    }

scale的个数就是图像金字塔的层数,从这里看出minSize越大,图像金字塔的层数越少

然后将金字塔中不同层的图像分别输入PNet网络

for (int i = 0; i < scales.size(); i++)
{
    int ws = (int)std::ceil(imgWidth*scales[i]);
    int hs = (int)std::ceil(imgHeight*scales[i]);
    cv::resize(img, resized, cv::Size(ws, hs));
		warpPNetInput(img);
    PNet->Forward();
}

从上面可以看出,图像金字塔有多少层就进行了多少次的PNet的forward运算。

很明显,上面的问题已经有了答案

  • 图像金字塔的优势就是可以输入多尺寸的图像到CNN,提升CNN对多尺度目标的检出能力;劣势也很明显,直接增加了运算次数,也就成比例地增加了推理时间。在通用目标检测领域,影响召回率的两大难题:1,目标尺寸过小;2,目标尺度变化过大。工业界应用中提升召回率常用两种方法

  • 图像金字塔,在输入端进行多尺度变化,以适应多尺度检测,但是其缺点明显就是耗时

  • 特征金字塔,在特征图上进行多尺度,浅层特征负责检出大目标,深层特征负责检出小目标,例如SSD,FPN

  • MTCNN可以接受任意尺寸的图像输入。因为PNet是一个全卷积网络,没有全连接层,常见的卷积,池化,非线性**层都是可以接受任意尺度的输入运算的,全连接是需要事先定义好连接数量所以不能接受任意尺度运算,当然也有例外,例如Kaiming He的SPP。MTCNN文章截图如下图1所示,但是实际开源的代码中跟这个结构略有不同,PNet没有进行landmark的回归,只有两个分支,一个用来分类人脸得到confidence值,另外一个用来回归box位置
    PNet
    PNet-out

  • 图像金字塔生成的图像尺寸要和12尽量接近,因为训练PNet的数据是归一化到12大小的。在文章中说明了,图像金字塔低层的面积是上一层的0.5,也就是面积的scale是0.5,对应的边长的scale就是sqrt(0.5),即0.709。minSize和factor两个参数直接影响到算法性能和推理时间

2、PNet输出的位置回归

按照PNet的网络结构,可以得到这样一个结论,12x12的矩阵可以得到1个prob(就是上面softmax的输出也就是人脸的概率)和一个4值向量(上面conv4-2输出,人脸的回归值)。

由于PNet不限制输入尺寸,所以输入的尺寸肯定有很多比12大的。由于卷积池化都是在输入特征图上“滑动”,所以现在把PNet看成是一个判别器,判断每一个12x12区域是否有人脸输出1个confidence和4个regression值,这样PNet就被看成一个12x12的“滑动核”。

假设一个输入图片中,某一个12x12块,左上角为(x,y)。其对应输出特征图大小应该是(x/2-5,y/2-5),所以根据输出信息反推回去,就可以知道哪一个12x12的块出现了人脸。假设PNet输出的特征图中某一个点检测出现人脸,反推回去原图上的坐标,例如输出特征图中(x,y)点反推回原图左上角(x1,y1)右下角(x2,y2)。

x1 = x * 2;y1 = y * 2;x2 = x1 + 12;y2 = y1 + 12,由于PNet做了图像金字塔,所以还需要还原Scale倍。

上面的内容只说明了某一个12*12区域是否存在人脸,但是具体位置还不知道,所以需要另外的4个回归值。

4个回归值分别代表的是中心点横坐标,纵坐标,宽,高 四个值的偏移量。这样有了坐标值,有了偏移量,就可以得到原图上精确坐标。

bbox回归,个人觉得也是一个非常重要的知识点,所以准备单独用一篇文章的篇幅来总结,这里先不写。

3、landmark检测

在Onet输出的时候,有三个分支,如下图,prob1是人脸confidence,conv6-2是人脸位置回归值,conv6-3是landmark回归值。

prob1是softmax的分类输出,conv6-2和conv6-3都是全连接层输出。在训练阶段,人脸使用交叉熵loss,landmark使用均方差损失,两者加权求和作为整个网络loss训练

4、mtcnn推理时间分析

经过观察mtcnn的三个网络结构,结构非常简单,计算参数量也非常少,主要耗时都存在于金字塔的生成过程中。三个阶段的耗时大约为:Pnet占75%,RNet占15%,ONet占10%。

但是通过工具计算单个网络参数量之后发现,PNet由于其最简单的网络结构,其参数量只有6.83K个,但是为啥耗时最多呢?原因是图像金字塔操作都在CPU上完成,然后forword操作再gpu上完成,这样导致数据不停地在显存和内存中拷贝,数据IO时间消耗已经不能被忽略了,并且在CPU上进行的resize操作时间消耗也不能被忽略。

  • MTCNN的推理优化主要从PNet下手,找到金字塔层数和待检测目标大小之间的平衡
  • 控制显存和内存之间IO交互的时间,例如将resize在gpu上实现。

5、mtcnn拓展

mtcnn的思想为工业界开阔了很大的视野,有很多使用mtcnn做的其他应用。例如mtcnn做行人检测,mtcnn做人头检测,mtcnn做人脸跟踪等等。

  • github上zuoqing大佬对mtcnn做了魔改,并且有一系列的拓展,强烈推荐看一下。
  • 人脸跟踪。第一帧采用完整mtcnn检测,检测到人脸之后,在第二帧中利用上一帧人脸位置稍微外扩一点,然后在此小图上直接使用ONet推理,直接就可以输出人脸位置。这样对于单人脸检测跟踪效果不错。

MTCNN是2016年的CVPR文章,再过一个月,马上就2020年了。时间总是在推着技术向前发展,我们也要跟上时代的步伐。虽然现在很多方法已经把MTCNN甩在后面了,但是我们不能忘记mtcnn对人脸检测算法做出的贡献。


关注公众号: 卡本特
内容持续输出

版权声明:本文为qq_17278169原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_17278169/article/details/103451053

智能推荐

spring与redis整合和序列化问题

spring与redis整合 首先用docker下载redis 下载:docker pull redis 运行:docker run -d -p 6379:6379 --name myredis docker.io/redis 连接redis Desktop Manager 然后开始在springboot上开始配置 application.yml: 自动配置好StringRedisTemplate...

CentOS 7配置南大docker镜像

文章目录 CentOS 7配置南大docker镜像 0.帮助页面 1.系统要求 2.卸载旧版本(没有旧版本可跳过) 3.安装方式 4.准备工作 5.可选操作 Stable Test Nightly 6.安装docker引擎 7. (可选)修改配置文件防止与xshell连接冲突 8.启动docker CentOS 7配置南大docker镜像 0.帮助页面 南大docker源:https://mirr...

Qcon演讲纪实:详解如何在实时视频通话中实现AR功能

2018年4月20日-22日,由 infoQ 主办的 Qcon 2018全球软件开发大会在北京如期举行。声网首席 iOS 研发工程师,iOS 端移动应用产品设计和技术架构负责人龚宇华,受邀分享了《基于 ARkit 和 ARcore,在实时视频通话中实现 AR 功能》,在演讲中剖析了 AR 与 VR 差异,ARKit 的工作原理,以及逐步讲解如何基于 ARKit 与声网Agora SDK 创建 AR...

POJ2348 UVa10368 HDU1525 Euclid's Game【博弈】

Euclid's GameTime Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 4106    Accepted Submission(s): 1947 Probl...

使用Breeze.js编写更好的查询

这篇文章是由同行评审Agbonghama柯林斯 。 感谢所有SitePoint的审稿作出SitePoint内容也可以是最好的! 数据量正在迅速发展,他们正在变得越来越复杂,维护。 许多开发人员希望避免由数据问题他们的工作过程中造成的问题和头痛。 一个使我们的工作更轻松的图书馆是Breeze.js 。 在这篇文章中,我们将讨论我们如何能够写出更好的查询与Breeze.js。 但是首先,我们应该知道什...

猜你喜欢

Netty框架构建Nio编程

~~~ 随手点赞,养成习惯 ~~~ 为什么选择Netty框架 Netty是业界最流行的NIO框架之一,它的健壮性、功能、性能、可定制性和可扩展性在同类框架中都是首屈一指的。 优点: ① API使用简单,开发门槛低 ②功能强大,预置了多种编解码功能,支持多种主流协议 ③ 定制能力强,可以通过ChannelHandler对通信框架进行灵活地扩展; ④性能高,通过与其他业界主流的NIO框架对比,Nett...

【JZOJ5262】【GDOI2018模拟8.12】树(DP,性质题)

Description Solution 首先我们可以知道两个性质:1、路径u-v和路径v-w可以合并为路径u-w;2、路径u1-v1加路径u2-v2和路径u1-v2加路径u2-v1是等价的(就是起始点和终点可以互换) 那么知道这些性质之后就很好做了。我们只用知道每个点多少次做起点和多少次做终点。 我们设f[i]表示满足i子树的需求i上的值要是多少。 那么枚举i的所有儿子,判断a[i]-f[i],...

【String-easy】541. Reverse String II 反转的元素,有反转个数和间隔

1. 题目原址 https://leetcode.com/problems/reverse-string-ii/ 2. 题目描述 3. 题目大意 给定一个字符串,和字符串的间隔k, 这个k表示每k个数反转一次,然后再间隔k个元素再反转k个元素。 4. 解题思路 只要按照间隔去反转就可以了。然后间隔k个元素不反转是通过让i每次递增 2*k完成的。 5. AC代码 6. 相似题型 【1】344. Re...

【C语言笔记结构体】

我们都知道C语言中变量的类型决定了变量存储占用的空间。当我们要使用一个变量保存年龄时可以将其声明为int类型,当我们要使用一个变量保存某一科目的考试成绩时可以将其声明为float。 那么,当我们要做一个学生信息管理系统时,需要保存学生的姓名、学号、年龄等信息,该怎么做呢? 如当要保存三个学生的信息时, 方法一是: 方法二是: 显然,方法二跟更清晰,因为它把name、num、age都集成在一个模板,...

39. Combination Sum 回溯算法简析

LeetCode传送门     这道题要求给你一组正数 C,然后给你一个目标数 T,让你从那组C中找到加在一起等于 T 的那些组合。     例如:给你 [2,3,6,7] 和 7,则返回 [[2,2,3],[7] ] 。      想解决这个问题前,我们首先引入一个新问题,图(树)的遍历问题。  ...