详解：深度学习框架数据Pipeline设计

知行编程网 2022-08-03 13:00 知行编程网 | 隐藏边栏 | 抢沙发 | 121 0

文章评分 0 次，平均分 0.0 ：

来自｜知乎作者丨袁秀龙

链接丨https://zhuanlan.zhihu.com/p/353373735

报道丨极市平台

导读

随着GPU算力越来越强，对于数据处理Pipeline的效率也提出了越来越高的要求。本文整理分析了Pytorch的数据Pipeline、MindSpore && Tensorflow的local数据处理pipeline、Tensorflow中的分布式数据处理Pipeline。

前言

过去的双月我一直在做训练框架中数据模块的工作。核心目的在于优化IO的效率和预处理的加速，致力于支持更多更丰富的数据处理方式，以及提升整个数据处理的pipeline的效率。随着日后GPU算力越来越强，对于数据处理Pipeline的效率也提出了越来越高的要求。于是在双月的结束整理分析各个框架数据处理pipeline的设计。

以下文章第一节，第二节主要参考MindSpore架构师金雪峰的文章，这部分内容文章里面写得很全了，基本把我所想表达整理的内容全部写了。

金雪锋：AI框架中数据处理的挑战与解决思路

https://zhuanlan.zhihu.com/p/352487023

一、AI框架中的数据处理

深度学习框架核心三大件事：数据，计算和通信。数据模块主要包括数据读取（IO密集型）和数据变换（CPU密集型）。典型的训练数据处理流程如下图所示：

图片来自于 https://zhuanlan.zhihu.com/p/352487023

加载：指从各种异构存储中将训练数据加载到内存中，加载时涉及数据的IO、解码等处理；目前一般都会从HDFS中或者OBS中读取序列化存储的数据，并在内存中进行解析校验。

Shuffle：训练一般是多个epoch，通过shuffle打乱数据集不同epoch的数据排序，防止训练过拟合。如果数据集支持随机访问，则只需按不同顺序随机选择数据就可以非常有效地进行混洗shuffle。如果数据集不支持随机访问（或仅部分随机访问像多个文件对象），那么一个子集的数据可以加载到一个特殊的混洗缓冲区shuffle buffer中。

map：完成训练数据的预处理工作。map为数据集算子，表示对整个数据集的变换操作。这是tensorflow和mindspore这类框架的算子抽象模式。在pytorch中，更多是以单个数据为粒度的处理算子。

batch：数据的batch逻辑处理。

repeat：可以通过repeat的方式增加训练的总数据量；一次repeat就是加载一遍整个训练集。

模型在进行推理时，同样会涉及到数据处理，不同的是推理时一般加载单样本进行处理，而非数据集。典型的过程如下图所示：

图片来自于https://zhuanlan.zhihu.com/p/352487023

二、难点与挑战

2.1 数据处理的高效性

当前各AI框架的数据处理主要利用CPU运算，训练则利用GPU/AI芯片，两者是并行的。理想情况下，应该在每轮迭代开始前，就准备好完成增强之后的数据，保持训练过程持续地进行。然而在实际的训练中，很多时候数据处理成为了阻碍性能提升的瓶颈：或是因为从存储中读取数据的速度不足（I/O bound），或是因为数据增强操作效率过低（CPU bound）。

根据黄氏定律，GPU/AI芯片的算力每一年会提升一倍，相比于即将失效的摩尔定律，AI芯片的算力提升速度会远大于CPU。模型迭代计算效率的不断提升，对数据处理也提出了更高的要求：数据处理过程必须足够高效，才能够避免GPU/AI芯片因为等待训练数据而空闲。

2.2 数据处理的灵活性

数据处理的灵活性挑战主要体现在以下两个方面：

多源数据集读取

多源数据集读取主要有两种情况

不同数据源有着不同的格式。
在一个训练数据处理pipeline中涉及到不同数据源数据读取处理如下图所示

针对问题1目前常规的解决方案主要有针对不同的数据源定制相应的Reader和数据打包成统一格式，两种解决方案。问题2在tensorflow这种场景下不会成为大的问题，但是在pytorch中遇到这样的问题就需要特殊的处理，避免不同数据源的数据读取变成串行读取。

数据增强算法非常灵活，需要框架提供足够易用的接口来支持用户定制数据处理过程

为了方便算法工程师快速的实验各种预处理方法，算法框架要允许算法工程师轻易的增加新的预处理算子。但是数据pipeline的灵活性常常和效率是一对矛盾的点，很难兼顾二者。想要高效基本都需要底层C++实现算子，但是这对灵活性带来了麻烦。pytorch很灵活，但是做到高效需要做很多二次开发。

三、现有的框架中的数据pipeline流程

接下来我们介绍一下现存框架的数据pipeline，我们核心关心的是pipeline的灵活性和高效性设计。灵活性体现在要允许算法工程师灵活的自定义算子，降低开发的成本，高效性体现在要能够可拓展，能够高性能。没错，这是一个既要，又要，还要的问题。

Pytorch的数据Pipeline设计与实现

Pytorch的pipeline设计整体比较清晰明了，所以我们首先拿他开刀。接下来的内容中我主要依据我的这篇博客为主进行介绍，限于篇幅，这篇文章中主要以图片为主。

大龙：Pytorch数据Pipeline设计总结

https://zhuanlan.zhihu.com/p/351666693

关于Pytorch，我们首先介绍其数据Pipeline的抽象：Sampler， Dataset， Dataloader， DataloaderItor四个层次，其关系如下图所示。Sampler负责生成读取处理的数据Index序列，Dataset模块负责定义是数据的加载和预处理，DataloaderItor负责进行单进程/多进程数据处理的管理，Dataloader则负责最高层的用户交互。

从pipeline的灵活性上讲，pytorch无疑是最灵活的，因为本身就是纯python的实现，自然对算法工程师来讲灵活定制成本最低，我们接下来介绍pipeline的高效性设计。pytorch中支持多进程数据加载，其核心流程图如下所示。

由主进程生成采样序列，放到各个读取进程的index队列中，每个进程读取处理完数据之后，把数据通过进程间队列result_queue来传给主进程，主进程中的子线程对数据做简单的处理（在pytorch中主要是pin memory的操作，加快CPU到GPU的数据拷贝）。主线程从数据队列中读取数据返回给模型进行。

MindSpore && Tensorflow的local数据处理pipeline

MindSpore和TF中的pipeline设计比较像，故在此一并介绍。这两个框架中的pipeline的设计思想我是非常喜欢的。其核心是把数据处理算子处理抽象为了两类：数据集算子和Tensor算子。数据集算子主要负责计算资源的调度和输入输出的控制，Tensor算子负责具体的数据增强的计算。一段典型的数据tensorflow预处理代码如下所示：

整体实际上是采用了类似于Spark中RDD这样的处理思想：对数据集进行变换。
通过map函数中传入各种处理算子（实际上对于Tensorflow底层的节点来说，就是一个C++函数调用链），我们构建了一个计算图。计算图上的每个节点定义了对数据集的处理操作，每个节点输入是一个Dataset，变换后输出仍然是一个Dataset。所以Dataset是tensorflow中处理的基础核心概念。我们查看MapDatasetOp的源码会发现，Map的核心输入是一个Dataset，输出是一个Dataset，操作是一个Opcontext。

四、一些未来需要解决的数据pipleline的问题：

1. 资源的自适应分配

预处理pipeline执行的进程数和当前各数据增强算子使用的处理线程数目由用户手工配置，对用户的调优经验要求极高。通过自适应判断Pipeline瓶颈，由框架给各个数据增强算子合理分配CPU资源，可以在训练过程中动态优化数据处理性能，免去用户繁琐的调优过程。

2. 异构硬件加速

当前的数据处理Pipeline操作在CPU执行，一旦出现瓶颈，带来AI芯片/GPU等待空闲，用户无法充分利用所有硬件的计算能力。期望构建用户无感知的异构硬件资源调度能力：通过监测硬件资源使用，完善TPU/GPU上的数据处理算子，采用代价模型自适应地将数据处理任务调度至合适的资源，实现异构硬件的充分利用。我们在音频混响操作（核心为FFT和IFFT操作）中发现GPU的使用能极大的加速数据预处理，然而过多的进程申请GPU缓存池对训练本身会造成一定的影响，这个问题我们下个双月会着重研究GPU显存的精细化管理。

3. 用户无感知的分布式数据加载

当前大部分框架使用本地多进程、多线程进行数据预处理。但是随着GPU的性能的逐年提升、AIOT端测模型的进一步减小，CPU Bound和IO Bound会越发的明显，本地的数据处理已经难以满足模型的需求。使用分布式的预处理是解决数据处理和读取瓶颈的出路。如何做到本地、分布式预处理用户无感知切换是未来非常有前景的方向。Tensorflow中的TFDataservice给众多框架开了一个头，估计后续MindSpore等框架会持续跟上。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信（ID : HIT_NLP）

备注：姓名-学校/公司-研究方向-城市

（如：小事-浙大-对话系统-北京）

即可申请加入深度学习/机器学习等技术交流群

<section data-brushtype="text" style="padding-right: 0em;padding-left: 0em;white-space: normal;font-size: 16px;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong>完<strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong></span></strong></span></strong></section><pre style="color: rgb(86, 86, 86);font-size: 16px;letter-spacing: 1px;text-align: left;"><pre><section style="letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="letter-spacing: 0.544px;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;"><span style="color: rgb(0, 0, 0);"><strong><span style="font-size: 16px;font-family: 微软雅黑;caret-color: red;">为您推荐</span></strong></span></section><p style="margin: 5px 16px;padding-right: 0em;padding-left: 0em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">思考丨到底什么叫算法工程师的落地能力？<br  /></p><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">我在哥大读博的五年，万字总结<br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">一个算法工程师的日常是怎样的？</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">吴恩达上新：生成对抗网络（GAN）专项课程</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">从SGD到NadaMax，十种优化算法原理及实现</section></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

导读

前言

一、AI框架中的数据处理