深度学习模型在移动端的部署_深度学习模型移动端部署_智云视图的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

Online 方式

首先在移动端做初步预处理，然后把数据传到服务器进行预测后返回移动端。
优点：部署相对简单，现成的框架（caffe，theano，mxnet，Torch) 做下封装就可以直接拿来用；使用服务器进行计算，性能强，能够处理比较大的模型
缺点：必须使用网络，而且展示效果依赖网速，不适合实时性要求高的应用。

Offline 方式

根据硬件的性能选择模型，在服务器训练得到模型，在手机上进行预测的过程。
优点：不需要使用网络，可以保护隐私
缺点：计算的性能、耗时等取决于移动端的性能，有些模型只能使用CPU，精度可能会有影响，无法进行类似云端的大规模分布式训练；移动端部署相对较麻烦，需要针对移动端进行优化；大模型耗费大量的资源（计算、内存、存储、电）。

下面主要介绍offline的部署方法。

主要分两个阶段，第一个阶段是训练并得到模型，第二个阶段则是在得到模型后，在移动端进行部署。本文主要讲解的为第二阶段。

在第一阶段训练模型中，已经有很成熟的开源框架和算法进行实现，但是为了能部署到移动端，还需要进行压缩加速。

目前深度学习在各个领域轻松碾压传统算法，不过真正用到实际项目中却会有很大的问题：

计算量非常巨大；
模型占用很高内存；
由于移动端系统资源有限，而深度学习模型可能会高达几百M，因此很难将深度学习应用到移动端系统中去。

综合现有的深度模型压缩方法，它们主要分为四类：

方法名称	描述	应用场景	方法细节
参数修剪和共享（parameter pruning and sharing）	删除对准确率影响不大的参数	卷积层和全连接层	对不同设置具有鲁棒性，可以达到较好效果，支持从零训练和预训练
低秩因子分解（low-rank factorization）	使用矩阵对参数进行分解估计	卷积层和全连接层	标准化的途径，很容易实施，支持从零训练和预训练
转移/紧凑卷积滤波器（transferred/compact convolutional filters）	设计特别的卷积核来保存参数	只有卷积层	算法依赖于应用程序，通常可以取得好的表现，只能从零开始训练
知识蒸馏（knowledge distillation）	训练一个更紧凑的神经网络来从大的模型蒸馏知识	卷积层和全连接层	模型表现对应用程序和网络结构较为敏感，只能从零开始训练

基于参数修剪和共享的方法针对模型参数的冗余性，试图去除冗余和不重要的项。基于低秩因子分解的技术使用矩阵/张量分解来估计深度学习模型的信息参数。基于传输/紧凑卷积滤波器的方法设计了特殊的结构卷积滤波器来降低存储和计算复杂度。知识蒸馏方法通过学习一个蒸馏模型，训练一个更紧凑的神经网络来重现一个更大的网络的输出。

一般来说，参数修剪和共享，低秩分解和知识蒸馏方法可以用于全连接层和卷积层的CNN，但另一方面，使用转移/紧凑型卷积核的方法仅支持卷积层。低秩因子分解和基于转换/紧凑型卷积核的方法提供了一个端到端的流水线，可以很容易地在CPU/GPU环境中实现。相反参数修剪和共享使用不同的方法，如矢量量化，二进制编码和稀疏约束来执行任务，这导致常需要几个步骤才能达到目标。

移动端部署

目前，很多公司都推出了开源的移动端深度学习框架，基本不支持训练，只支持前向推理。这些框架都是 offline 方式，它可确保用户数据的私有性，可不再依赖于因特网连接。

2017年4月19日 Facebook在F8开发者大会上推出Caffe2。项目是专门为手机定制的深度框架，是在caffe2 的基础上进行迁移的，目的就是让最普遍的智能设备——手机也能广泛高效地应用深度学习算法。
Caffe2 is a deep learning framework made with expression, speed, and modularity in mind. It is an experimental refactoring of Caffe, and allows a more flexible way to organize computation.

开源地址: https://github.com/caffe2/caffe2

TensorFlow Lite

2017年5月17日 Goole在I/O大会推出TensorFlow Lite，是专门为移动设备而优化的 TensorFlow 版本。TensorFlow Lite 具备以下三个重要功能：
轻量级（Lightweight）：支持机器学习模型的推理在较小二进制数下进行，能快速初始化/启动
跨平台（Cross-platform）：可以在许多不同的平台上运行，现在支持 Android 和 iOS
快速（Fast）：针对移动设备进行了优化，包括大大减少了模型加载时间、支持硬件加速

模块如下:
TensorFlow Model: 存储在硬盘上已经训练好的 TensorFlow 模型
TensorFlow Lite Converter: 将模型转换为 TensorFlow Lite 文件格式的程序
TensorFlow Lite Model File: 基于 FlatBuffers 的模型文件格式，针对速度和大小进行了优化。

TensorFlow Lite 目前支持很多针对移动端训练和优化好的模型。

Core ML

2017年6月6日 Apple在WWDC大会上推出Core ML。对机器学习模型的训练是一项很重的工作，Core ML 所扮演的角色更多的是将已经训练好的模型转换为 iOS 可以理解的形式，并且将新的数据“喂给”模型，获取输出。抽象问题和创建模型虽然并不难，但是对模型的改进和训练可以说是值得研究一辈子的事情，这篇文章的读者可能也不太会对此感冒。好在 Apple 提供了一系列的工具用来将各类机器学习模型转换为 Core ML 可以理解的形式。籍此，你就可以轻松地在你的 iOS app 里使用前人训练出的模型。这在以前可能会需要你自己去寻找模型，然后写一些 C++ 的代码来跨平台调用，而且难以利用 iOS 设备的 GPU 性能和 Metal (除非你自己写一些 shader 来进行矩阵运算)。Core ML 将使用模型的门槛降低了很多。

Core ML 在背后驱动了 iOS 的视觉识别的 Vision 框架和 Foundation 中的语义分析相关 API。普通开发者可以从这些高层的 API 中直接获益，比如人脸图片或者文字识别等。这部分内容在以前版本的 SDK 中也存在，不过在 iOS 11 SDK 中它们被集中到了新的框架中，并将一些更具体和底层的控制开放出来。比如你可以使用 Vision 中的高层接口，但是同时指定底层所使用的模型。这给 iOS 的计算机视觉带来了新的可能。

小米开源了深度学习框架MACE，有几个特点：异构加速、汇编级优化、支持各种框架的模型转换。

有了异构，就可以在CPU、GPU和DSP上跑不同的模型，实现真正的生产部署，比如人脸检测、人脸识别和人脸跟踪，可以同时跑在不同的硬件上。小米支持的GPU不限于高通，这点很通用，很好，比如瑞芯微的RK3299就可以同时发挥出cpu和GPU的好处来。
MACE 是专门为移动设备优化的深度学习模型预测框架，MACE 从设计之初，便针对移动设备的特点进行了专门的优化：
速度：对于放在移动端进行计算的模型，一般对整体的预测延迟有着非常高的要求。在框架底层，针对ARM CPU进行了NEON指令级优化，针对移动端GPU，实现了高效的OpenCL内核代码。针对高通DSP，集成了nnlib计算库进行HVX加速。同时在算法层面，采用Winograd算法对卷积进行加速。
功耗：移动端对功耗非常敏感，框架针对ARM处理器的big.LITTLE架构，提供了高性能，低功耗等多种组合配置。针对Adreno GPU，提供了不同的功耗性能选项，使得开发者能够对性能和功耗进行灵活的调整。
系统响应：对于GPU计算模式，框架底层对OpenCL内核自适应的进行分拆调度，保证GPU渲染任务能够更好的进行抢占调度，从而保证系统的流畅度。
初始化延迟：在实际项目中，初始化时间对用户体验至关重要，框架对此进行了针对性的优化。
内存占用：通过对模型的算子进行依赖分析，引入内存复用技术，大大减少了内存的占用。
模型保护：对于移动端模型，知识产权的保护往往非常重要，MACE支持将模型转换成C++代码，大大提高了逆向工程的难度。
此外，MACE 支持 TensorFlow 和 Caffe 模型，提供转换工具，可以将训练好的模型转换成专有的模型数据文件，同时还可以选择将模型转换成C++代码，支持生成动态库或者静态库，提高模型保密性。

目前MACE已经在小米手机上的多个应用场景得到了应用，其中包括相机的人像模式，场景识别，图像超分辨率，离线翻译(即将实现)等。

开源地址： https://github.com/XiaoMi/mace

MACE Model Zoo
随着MACE一起开源的还有MACE Model Zoo项目，目前包含了物体识别，场景语义分割，图像风格化等多个公开模型。

链接: https://github.com/XiaoMi/mace-models

FeatherCNN 和 NCNN

FeatherCNN 由腾讯 AI 平台部研发，基于 ARM 架构开发的高效神经网络前向计算库，核心算法已申请专利。该计算库支持 caffe 模型，具有无依赖，速度快，轻量级三大特性。该库具有以下特性：

无依赖：该计算库无第三方组件，静态库或者源码可轻松部署于 ARM 服务器，和嵌入式终端，安卓，苹果手机等移动智能设备。
速度快：该计算库是当前性能最好的开源前向计算库之一，在 64 核 ARM 众核芯片上比 Caffe 和 Caffe2 快 6 倍和 12 倍，在 iPhone7 上比 Tensorflow lite 快 2.5 倍。
轻量级：该计算库编译后的后端 Linux 静态库仅 115KB , 前端 Linux 静态库 575KB , 可执行文件仅 246KB 。
FeatherCNN 采用 TensorGEMM 加速的 Winograd 变种算法，以 ARM 指令集极致提升 CPU 效率，为移动端提供强大的 AI 计算能力。使用该计算库可接近甚至达到专业神经网络芯片或 GPU 的性能，并保护用户已有硬件投资。

NCNN 是一个为手机端极致优化的高性能神经网络前向计算框架。ncnn 从设计之初深刻考虑手机端的部署和使用。无第三方依赖，跨平台，手机端 cpu 的速度快于目前所有已知的开源框架。基于 ncnn，开发者能够将深度学习算法轻松移植到手机端高效执行，开发出人工智能 APP，将 AI 带到你的指尖。ncnn 目前已在腾讯多款应用中使用，如QQ，Qzone，微信，天天P图等。

这两个框架都是腾讯公司出品，FeatherCNN来自腾讯AI平台部，NCNN来自腾讯优图。
重点是：都开源，都只支持cpu
NCNN开源早点，性能较好，用户较多。FeatherCNN开源晚，底子很好。

FeatherCNN开源地址： http://github.com/tencent/FeatherCNN
NCNN开源地址： https://github.com/Tencent/ncnn

百度的mobile-deep-learning，MDL 框架主要包括模型转换模块（MDL Converter）、模型加载模块（Loader）、网络管理模块（Net）、矩阵运算模块（Gemmers）及供 Android 端调用的 JNI 接口层（JNI Interfaces）。其中，模型转换模块主要负责将 Caffe 模型转为 MDL 模型，同时支持将 32bit 浮点型参数量化为 8bit 参数，从而极大地压缩模型体积；模型加载模块主要完成模型的反量化及加载校验、网络注册等过程，网络管理模块主要负责网络中各层 Layer 的初始化及管理工作；MDL 提供了供 Android 端调用的 JNI 接口层，开发者可以通过调用 JNI 接口轻松完成加载及预测过程。

作为一款移动端深度学习框架，需要充分考虑到移动应用自身及运行环境的特点，在速度、体积、资源占用率等方面有严格的要求。同时，可扩展性、鲁棒性、兼容性也是需要考虑的。为了保证框架的可扩展性，MDL对 layer 层进行了抽象，方便框架使用者根据模型的需要，自定义实现特定类型的层，使用 MDL 通过添加不同类型的层实现对更多网络模型的支持，而不需要改动其他位置的代码。为了保证框架的鲁棒性，MDL 通过反射机制，将 C++ 底层异常抛到应用层，应用层通过捕获异常对异常进行相应处理，如通过日志收集异常信息、保证软件可持续优化等。目前行业内各种深度学习训练框架种类繁多，而 MDL 不支持模型训练能力，为了保证框架的兼容性，MDL提供 Caffe 模型转 MDL 的工具脚本，使用者通过一行命令就可以完成模型的转换及量化过程。

开源地址： https://github.com/baidu/mobile-deep-learning

这是高通骁龙的官方SDK，不开源。主要支持自家的DSP、GPU和CPU。模型训练在流行的深度学习框架上进行（SNPE支持Caffe，Caffe2，ONNX和TensorFlow模型。）训练完成后，训练的模型将转换为可加载到SNPE运行时的DLC文件。然后，可以使用此DLC文件使用其中一个Snapdragon加速计算核心执行前向推断传递。

以智云视图的人脸标定算法为例，开源项目地址为：
https://github.com/zeusees/HyperLandmark

使用的是腾讯的 NCNN 进行部署，首先通过 caffe 或者 tensorflow 等进行训练，例如使用 caffe 训练会生成模型：
deploy.prototxt
snapshot_10000.caffemodel
然后，使用 caffe 自带了工具可以把老版本的 caffe 网络和模型转换为新版（ncnn的工具只认识新版）
upgrade_net_proto_text [老prototxt] [新prototxt]
upgrade_net_proto_binary [老caffemodel] [新caffemodel]
使用 caffe2ncnn 工具转换为 ncnn 的网络描述和模型
caffe2ncnn deploy.prototxt bvlc_alexnet.caffemodel alexnet.param alexnet.bin
但是 param 描述文件是明文的，可以使用 ncnn2mem 工具转换为二进制描述文件和内存模型，生成 alexnet.param.bin 和两个静态数组的代码文件
然后可以使用 NCNN 加载二进制的 param.bin 和 bin 模型
ncnn::Net net;
net.load_param_bin(“alexnet.param.bin”);
net.load_model("alexnet.bin”);
获取输入并计算输出结果
ncnn 用自己的数据结构 Mat 来存放输入和输出数据输入图像的数据要转换为 Mat，依需要减去均值和乘系数

#include "mat.h"
unsigned char* rgbdata;// data pointer to RGB image pixels
int w;// image width
int h;// image height
ncnn::Mat in = ncnn::Mat::from_pixels(rgbdata, ncnn::Mat::PIXEL_RGB, w, h);
const float mean_vals[3] = {104.f, 117.f, 123.f};
in.substract_mean_normalize(mean_vals, 0);
执行前向网络，获得计算结果 
#include "net.h"
#include "alexnet.id.h"
ncnn::Mat in;// input blob as above
ncnn::Mat out;
ncnn::Extractor ex = net.create_extractor();
ex.set_light_mode(true);
ex.input(alexnet_param_id::BLOB_data, in);
ex.extract(alexnet_param_id::BLOB_prob, out);
具体的代码可以参考 github 中的demo 
开源地址
北京智云视图科技有限公司
                    简介自从 AlphaGo 出现以来，机器学习无疑是当今最火热的话题，而深度学习也成了机器学习领域内的热点，现在人工智能、大数据更是越来越贴近我们的日常生活，越来越多的人工智能应用开始在移植到移动端上，那能够快速高效地在移动端部署深度学习模型就变成亟待解决的问题了。现阶段 app 上使用的深度学习主要有两种模式：Online 方式首先在移动端做初步预处理，然后把数据传到服务器进行预测后返回移...
当我们把深度学习模型训练好之后，想要基于深度学习模型来开发实际应用的时候，主要有三种不同的应用场景移动端、桌面端和服务器端。
移动端部署：我们将模型封装成SDK给Android和IOS调用，由于移动端算力有限通常还需要考虑基于移动端CPU或GPU框架的优化问题来提速。如果模型要求的算力比较大，就只能考虑以API的形式来调用了，这时候模型是部署在服务器上的。
桌面端：桌面应用主要包括Windows和Mac OS以及Linux，这时候我们还是需要将模型封装成SDK然后提供接口来进行调用。Windows将
				通俗来说，模型部署就是在某一框架内训练好的模型（权重文件），通过具体框架进行模型转化或者直接使用对应语言所提供的API接口，load、get一系列操作，使得训练好的“黑箱”能得到实际应用。这种方式可能是简单的pyinstaller库进行简单的封装、也可以是pyqt进行界面集成、接口调用，或者使用flask或者Django框架进行前端和后台服务器的嵌入，这些总体来说，都算是模型部署。
使用docke...
				第4章 人脸与Landmark检测
前面一章主要介绍了图象分类的基本原理、常见模型、迁移学习的基本概念。结合这些基础概念介绍了Pytorch中预训练模型库的使用，以及如何基于自定义数据与迁移学习实现自定义图象分类模型训练与部署使用。
本章我们将更近一步，说明如何使用OpenVINO™工具套件中自带的模型库，实现人脸检测与landmark检测。然后通过我们我们自己收集与整理并标注一个人脸landmark数据集，实现自定义人脸landmark模型的训练与部署测试。帮助读者更好的了解OpenVINO™工...
				Flask是Python中一款轻量级Web应用框架，支持快速开发Web应用。图像风格迁移是一种深度学习中常用的技术，可以将一张图像的艺术风格迁移到另一张图像上，形成新的图像。
要在Flask中部署图像风格迁移深度学习模型，首先需要使用Python中的深度学习框架（如PyTorch或TensorFlow）训练好模型，并将其保存为文件。然后，在Flask应用程序中添加代码，将输入的图像和训练好的模型作为输入参数，运行模型并生成新的图像。
为了方便用户操作，可以在Flask中设置一个用户界面，提供上传图像的功能，并将上传的图像用作输入图像。用户可以选择不同的艺术风格，然后点击“生成”按钮，让Flask应用程序运行图像风格迁移深度学习模型，并将生成的新图像显示在用户界面上。
在部署图像风格迁移深度学习模型时，还需要考虑到模型的性能问题。由于深度学习模型通常需要大量的计算资源，因此需要使用高性能的计算设备（如GPU）来加速模型的运算。另外，为了避免在运行模型时消耗过多的内存空间，可以使用Flask的流式传输技术，将输入图像分块传输到模型中，以降低内存使用量。
总之，Flask是一款便捷易用的Web应用框架，可以用于部署图像风格迁移深度学习模型。通过添加用户界面和优化性能，可以提升应用程序的友好性和效率，满足用户的需求。