2021-01-02 23:31:05

af712e31 · wizardforcel · ad09897a · af712e31 · af712e31 · af712e31
隐藏空白更改
内联并排

Showing with 22 addition and 22 deletion

new/master-cv-tf-2x/11.md new/master-cv-tf-2x/11.md +1 -1

new/master-cv-tf-2x/7.md new/master-cv-tf-2x/7.md +7 -7

new/master-cv-tf-2x/9.md new/master-cv-tf-2x/9.md +14 -14

未找到文件。
--- a/new/master-cv-tf-2x/11.md
+++ b/new/master-cv-tf-2x/11.md
@@ -474,7 +474,7 @@ $make run

 # 转换预训练模型以进行推断

-本部分描述了转换自定义 TensorFlow 模型的步骤，这些自定义 TensorFlow 模型使用我们在“第 6 章”，*视觉搜索中使用传递学习*开发的 TensorFlow Keras 对象分类模型或使用通过 就像我们在上一章中所做的那样，使用 TensorFlow 对象检测 API。 如果您已经计划使用来自英特尔开放源技术中心的经过预先训练的优化模型，那么上一节中描述的步骤将起作用。 在下一节中，我们将描述如何使用两种类型的 TensorFlow 模型执行转换。
+本部分描述了转换自定义 TensorFlow 模型的步骤，这些自定义 TensorFlow 模型使用我们在“第 6 章”，*视觉搜索中使用迁移学习*开发的 TensorFlow Keras 对象分类模型或使用通过 就像我们在上一章中所做的那样，使用 TensorFlow 对象检测 API。 如果您已经计划使用来自英特尔开放源技术中心的经过预先训练的优化模型，那么上一节中描述的步骤将起作用。 在下一节中，我们将描述如何使用两种类型的 TensorFlow 模型执行转换。

 # 从使用 Keras 开发的 TensorFlow 模型进行转换


--- a/new/master-cv-tf-2x/7.md
+++ b/new/master-cv-tf-2x/7.md
@@ -102,7 +102,7 @@ Darknet 是一个开放的神经网络框架，由 C 编写，并由 YOLO 的第

 在本节中，我们将从官方 Darknet 站点安装 Darknet，并将其用于对象检测。 请按照以下步骤在您的 PC 上安装 Darknet 并进行推断：

-1.  在终端中应输入以下五行。 点击*在每个命令行之后输入*。 这些步骤将从 GitHub 克隆 Darknet，这将在您的 PC 中创建 Darknet 目录，并获取 YOLO v3 权重，然后检测图像中的对象：
+1.  在终端中应输入以下五行。 在每个命令行之后点击`Enter`。 这些步骤将从 GitHub 克隆 Darknet，这将在您的 PC 中创建 Darknet 目录，并获取 YOLO v3 权重，然后检测图像中的对象：

 ```py
 git clone https://github.com/pjreddie/darknet.git
@@ -408,9 +408,9 @@ Person, bicycle, car, motorbike, airplane, bus, train, truck, boat, traffic ligh

 # 使用 YOLO v3 训练自己的图像集以开发自定义模型

-在本节中，我们将学习如何使用 YOLO v3 训练您自己的自定义检测器。 培训过程涉及许多不同的步骤。 为了清楚起见，以下流程图中显示了每个步骤的输入和输出。 YOLO 的 *YOLOv3：Incremental Improvement* 由 Redmon，Joseph，Farhadi 和 Ali 于 2018 年在 arXiv 上发布，其中包含许多培训步骤。这些培训步骤也包含在[VOG2] VOLO 培训 YOLO 下 [的部分：https：//pjreddie.com/darknet/yolo/](https://pjreddie.com/darknet/yolo/) 。
+在本节中，我们将学习如何使用 YOLO v3 训练您自己的自定义检测器。 培训过程涉及许多不同的步骤。 为了清楚起见，以下流程图中显示了每个步骤的输入和输出。 YOLO 的《YOLOv3：Incremental Improvement》由 Redmon，Joseph，Farhadi 和 Ali 于 2018 年在 arXiv 上发布，其中包含许多培训步骤。这些培训步骤也包含在[VOG2] VOLO 培训 YOLO 下 [的部分：https：//pjreddie.com/darknet/yolo/](https://pjreddie.com/darknet/yolo/) 。

-下图显示了如何使用 YOLO v3 训练 VOC 数据集。 在我们的案例中，我们将使用我们自己的自定义家具数据，该数据用于在“第 6 章”，*使用转移* *学习*的视觉搜索中使用 Keras 对图像进行分类：
+下图显示了如何使用 YOLO v3 训练 VOC 数据集。 在我们的案例中，我们将使用我们自己的自定义家具数据，该数据用于在“第 6 章”，“使用迁移学习的视觉搜索”中使用 Keras 对图像进行分类：

 ![](img/7122d128-6932-40d9-a661-4964d8653a0b.png)

@@ -420,7 +420,7 @@ Person, bicycle, car, motorbike, airplane, bus, train, truck, boat, traffic ligh

 请按照以下步骤准备图像：

-1.  研究您要检测的类数-在此示例中，我们将考虑在第 6 章*使用传递学习*的可视搜索中讨论的`bed`，`chair`和`sofa`类。
+1.  研究您要检测的类数-在此示例中，我们将考虑在第 6 章“使用迁移学习的视觉搜索”中讨论的`bed`，`chair`和`sofa`类。
 2.  确保每个类的图像数量相同。
 3.  确保您的班级名称中没有空格； 例如，使用`caesar_salad`代替`caesar salad`。
 4.  每个班级至少收集 100 张图像以开始初始训练（因此，请完成步骤 1 至 10 以开发模型），然后随着图像数量的增加而增加数量。 理想情况下，1,000 张图像是训练的不错数目。
@@ -431,7 +431,7 @@ Person, bicycle, car, motorbike, airplane, bus, train, truck, boat, traffic ligh

 此步骤涉及为数据集中每个图像中的每个对象创建边界框坐标。 此边界框坐标通常由四个参数表示：（x，y）用于确定初始位置以及宽度和高度。 边界框可以表示为`.xml`或`.txt`形式。 该坐标文件也称为注释文件。 请按照以下步骤完成本节：

-1.  许多图像注释软件应用程序都用于标记图像。 在面部关键点检测期间，我们已经在“第 3 章”，*使用 OpenCV 和 CNN* 进行面部检测中介绍了 VGG 图像注释器。 在“第 11 章”，“具有 CPU / GPU 优化功能的边缘设备深度学习”中，我们将介绍用于自动图像注释的 CVAT 工具。 在本章中，我们将介绍一个称为`labelImg`的注释工具。
+1.  许多图像注释软件应用程序都用于标记图像。 在面部关键点检测期间，我们已经在“第 3 章”，“使用 OpenCV 和 CNN 进行面部检测”中介绍了 VGG 图像注释器。 在“第 11 章”，“具有 CPU / GPU 优化功能的边缘设备深度学习”中，我们将介绍用于自动图像注释的 CVAT 工具。 在本章中，我们将介绍一个称为`labelImg`的注释工具。
 2.  从[这里](https://pypi.org/project/labelImg/)下载`pypi`的`labelImg`注释软件。 您可以按照此处的说明为操作系统安装`labelImg`-如果有任何问题，一种简单的安装方法是在终端中键入`pip3 install lableImg`。 然后，要运行它，只需在终端中键入`labelImg`。
 3.  在`labelImg`中，在“打开目录”框中单击图像目录。 选择每个图像并通过单击 Create / RectBox 创建一个包围框，然后为包围框添加一个类名，例如`bed`，`chair`或`sofa`。 保存注释，然后单击右箭头转到下一张图像。
 4.  如果图片中图像中有多个类别或同一类别的多个位置，请在每个类别周围绘制矩形。 多个类别的示例是同一图像中的汽车和行人。 同一类别内多个位置的示例是同一图像中不同位置的不同汽车。 因此，如果图像由多把椅子和一张沙发组成，则在每把椅子周围绘制矩形，并在类名称中为每张沙发分别键入`chair`，在其周围绘制一个矩形并键入`sofa`。 如果图像仅由沙发组成，则在沙发周围绘制一个矩形，并输入`sofa`作为类名。 下图说明了这一点：
@@ -572,11 +572,11 @@ Region 106 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.419326, .5R: -nan, .

 **特征金字塔网络**（**FPN**）由多个特征金字塔组成，这些特征金字塔由每个 CNN 层之间的较高维度和较低分辨率组成。 FPN 中使用此金字塔特征来检测不同比例的物体。 FPN 使用最后一个全连接层要素，该要素将基于其最近的邻居应用 2x 的上采样，然后将其添加到其先前的要素向量中，然后将 3 x 3 卷积应用于合并的层。 这个过程一直重复到第二个卷积层。 结果是在所有级别上都具有丰富的语义，从而导致不同级别的对象检测。

-[RetinaNet](https://arxiv.org/abs/1708.02002)由林宗义，Priya Goyal，Ross Girshick，Kakaiming He 在*密集物体检测焦点损失*中引入， 和皮奥特·多拉尔（PiotrDollár）。 RetinaNet 是一个密集的一级网络，由一个基本的 ResNet 型网络和两个特定于任务的子网组成。 基本网络使用 FPN 为不同的图像比例计算卷积特征图。 第一个子网执行对象分类，第二个子网执行卷积包围盒回归。
+[RetinaNet](https://arxiv.org/abs/1708.02002)由林宗义，Priya Goyal，Ross Girshick，Kakaiming He 在《密集物体检测的焦点损失》中引入， 和皮奥特·多拉尔（PiotrDollár）。 RetinaNet 是一个密集的一级网络，由一个基本的 ResNet 型网络和两个特定于任务的子网组成。 基本网络使用 FPN 为不同的图像比例计算卷积特征图。 第一个子网执行对象分类，第二个子网执行卷积包围盒回归。

 大多数 CNN 对象检测器可分为两类-一级和二级网络。 在诸如 YOLO 和 SSD 的单阶段网络中，单个阶段负责分类和检测。 在诸如 R-CNN 的两阶段网络中，第一阶段生成对象位置，第二阶段评估其分类。 一级网络以其速度而闻名，而二级网络以其准确率而闻名。

-已知由于只有几个候选位置实际包含对象，因此一级网络遭受类不平衡的困扰。 该类不平衡使得训练在图像的大部分部分中无效。 RetinaNet 通过引入**焦距损耗**（**FL**）来解决类别不平衡问题，该焦距微调损耗**交叉熵**（**CE**）到 专注于困难的检测问题。 损耗 CE 的微调是通过对损耗 CE 应用检测概率（ *pt* ）的调制因子（`g`）来完成的，如下所示：
+已知由于只有几个候选位置实际包含对象，因此一级网络遭受类不平衡的困扰。 该类不平衡使得训练在图像的大部分部分中无效。 RetinaNet 通过引入**焦距损耗**（**FL**）来解决类别不平衡问题，该焦距微调损耗**交叉熵**（**CE**）到 专注于困难的检测问题。 损耗 CE 的微调是通过对损耗 CE 应用检测概率（`pt`）的调制因子（`g`）来完成的，如下所示：

 ![](img/96f4365a-8fea-4faa-aa02-bffff6e1c17e.png)


--- a/new/master-cv-tf-2x/9.md
+++ b/new/master-cv-tf-2x/9.md
@@ -17,9 +17,9 @@

 # OpenPose 背后的理论

-OpenPose 是第一个针对图像或视频中的多个人的开源实时二维姿态估计系统。 它主要由**卡内基梅隆大学**（**CMU**）的学生和教职员工开发。 论文的标题是《OpenPose：使用零件亲和力字段进行实时多人 2D 姿势估计》，作者是 Zhe Cao，Gines Hidalgo，Tomas Simon，Shih-En-Wei 和 Yaser Sheikh。 您可以在[这个页面](https://arxiv.org/abs/1812.08008)上找到该论文。
+OpenPose 是第一个针对图像或视频中的多个人的开源实时二维姿态估计系统。 它主要由**卡内基梅隆大学**（**CMU**）的学生和教职员工开发。 论文的标题是《OpenPose：使用部分亲和力字段进行实时多人 2D 姿势估计》，作者是 Zhe Cao，Gines Hidalgo，Tomas Simon，Shih-En-Wei 和 Yaser Sheikh。 您可以在[这个页面](https://arxiv.org/abs/1812.08008)上找到该论文。

-请注意，OpenPose 首次出现在 CVPR 2017 中，题目为*，使用部分相似性字段*进行实时多人 2D 姿势估计，可在[中找到 https://arxiv.org/abs /1611.08050](https://arxiv.org/abs/1611.08050) 。 接下来是 2018 年的论文 *OpenPose：使用零件相似性字段的实时多人 2D 姿势估计*，网络得到了进一步改善。
+请注意，OpenPose 首次出现在 CVPR 2017 中，题目为《使用部分亲和力字段进行实时多人 2D 姿势估计》，可在[这个页面](https://arxiv.org/abs/1611.08050)中找到。 接下来是 2018 年的论文《OpenPose：使用部分亲和力字段的实时多人 2D 姿势估计》，网络得到了进一步改善。

 本文的主要发现如下：

@@ -35,7 +35,7 @@ OpenPose 是第一个针对图像或视频中的多个人的开源实时二维
 *   置信度图是特定特征（身体部位）可以位于任何给定像素中的概率的二维表示。 另一方面，特征图表示 CNN 给定层中给定过滤器的输出图。
 *   网络体系结构由几个 1 x 1 和 3 x 3 内核组成。 每个 3 x 3 内核的输出是串联的。
 *   OpenPose 是第一个实时多人系统，使用三个独立的 CNN 块检测 135 个关键点：（a）身体和脚部检测，（b）手部检测和（c）人脸检测。
-*   在对象检测讨论（“第 5 章”，“神经网络体系结构和模型”和“第 7 章”，*使用 YOLO* 进行对象检测）中，我们 发现，与诸如 SSD 或 YOLO 等单次检测方法相比，诸如 Faster R-CNN 之类的区域提议方法可带来更高的准确率，但速度却更低。 同样，对于人体姿势估计，自下而上的方法与自下而上的方法相比，具有较高的准确率，但速度较低。 自上而下的方法分别为每个由人组成的边界框提供图像。 自下而上的方法提供了由一个人的多个边界框组成的整个图像，从而产生了一个较小分辨率的人的图像。
+*   在对象检测讨论（“第 5 章”，“神经网络体系结构和模型”和“第 7 章”，“使用 YOLO 进行对象检测”）中，我们 发现，与诸如 SSD 或 YOLO 等单次检测方法相比，诸如 Faster R-CNN 之类的区域提议方法可带来更高的准确率，但速度却更低。 同样，对于人体姿势估计，自下而上的方法与自下而上的方法相比，具有较高的准确率，但速度较低。 自上而下的方法分别为每个由人组成的边界框提供图像。 自下而上的方法提供了由一个人的多个边界框组成的整个图像，从而产生了一个较小分辨率的人的图像。

 在 2019 年，OpenPose 的作者以及其他一些人（Gines Hidalgo，Yaadhav Raaj，Haroon Idrees，Donglai Xiang，Hanbyul Joo，Tomas Simon1 和 Yaser Sheikh）提高了 OpenPose 的准确率和检测时间。 HTG0]单网络全身姿势估计。 您可以在[这个页面](https://arxiv.org/abs/1909.13423)上找到本文。

@@ -138,7 +138,7 @@ for pair in POSE_PAIRS:

 # 人体姿势估计–堆叠沙漏模型

-堆叠沙漏模型是由 Alejandro Newell，Kaiyu Yang 和 Jia Deng 于 2016 年在他们的论文*用于人体姿势估计的堆叠沙漏网络*中开发的。 可以在[这个页面](https://arxiv.org/abs/1603.06937)中找到该模型的详细信息。
+堆叠沙漏模型是由 Alejandro Newell，Kaiyu Yang 和 Jia Deng 于 2016 年在他们的论文“用于人体姿势估计的堆叠沙漏网络”中开发的。 可以在[这个页面](https://arxiv.org/abs/1603.06937)中找到该模型的详细信息。

 下图说明了该模型的体系结构：

@@ -164,7 +164,7 @@ for pair in POSE_PAIRS:

 # 了解沙漏模型

-沙漏模型在 MPII 人类姿态数据集中的所有关节上都达到了最先进的结果，但这是以占用资源密集型网络带宽为代价的。 这是由于每层通道数量众多而导致训练困难。 张峰，朱夏田和毛 Mao 在题为*快速人体姿态估计*的论文中，将 **FastPose 蒸馏**（**FPD**）引入 CVPR 2019。 与沙漏模型相比，FPD 可以实现更快，更经济的模型推断，同时达到相同的模型性能。 主要功能如下：
+沙漏模型在 MPII 人类姿态数据集中的所有关节上都达到了最先进的结果，但这是以占用资源密集型网络带宽为代价的。 这是由于每层通道数量众多而导致训练困难。 张峰，朱夏田和毛 Mao 在题为“快速人体姿态估计”的论文中，将 **FastPose 蒸馏**（**FPD**）引入 CVPR 2019。 与沙漏模型相比，FPD 可以实现更快，更经济的模型推断，同时达到相同的模型性能。 主要功能如下：

 *   四个沙漏（而不是八个）可以预测 95% 的模型准确率。
 *   从 256 个通道下降到 128 个通道只会导致精度降低 1%。
@@ -338,7 +338,7 @@ outputs.append(head_to_loss)

 # 从左到右连接

-如果查看*编码沙漏模型*部分开头的图像，您会注意到左右两个块由`connect_left_to_right`块连接。 用于将左侧块连接到右侧块的代码如下：
+如果查看“编码沙漏模型部分开头的图像，您会注意到左右两个块由`connect_left_to_right`块连接。 用于将左侧块连接到右侧块的代码如下：

 ```py
 def connect_left_to_right(left, right, bottleneck, name, num_channels):
@@ -396,7 +396,7 @@ head_next_stage = Add()([head, head_m, prelayerfeatures])
 return head_next_stage, head_parts
 ```

-磁头有两个主要块，每个块由一个 1 x 1 Conv2D 滤波器组成。 它使用激活层和填充。 作为复习，请参考*人体姿势估计-沙漏模型*部分下显示的沙漏架构图，以了解以下组件之间的联系：
+磁头有两个主要块，每个块由一个 1 x 1 Conv2D 滤波器组成。 它使用激活层和填充。 作为复习，请参考“人体姿势估计-沙漏模型”部分下显示的沙漏架构图，以了解以下组件之间的联系：

 *   进入下一个阶段
 *   前往中间特征
@@ -427,16 +427,16 @@ PoseNet 基于 Google 的两篇论文。 一种使用自上而下的方法，而

 # 自上而下的方法

-第一篇论文的标题为*，其目的是在野外进行准确的多人姿势估计*，由 George Papandreou，Tyler Zhu，Nori Kanazawa，Alexander Toshev，Jonathan Tompson，Chris Bregler 和 Kevin Murphy 撰写。 您可以在[这个页面](https://arxiv.org/abs/1701.01779)上找到该论文。
+第一篇论文的标题为《在野外进行精确的多人姿势估计》，由 George Papandreou，Tyler Zhu，Nori Kanazawa，Alexander Toshev，Jonathan Tompson，Chris Bregler 和 Kevin Murphy 撰写。 您可以在[这个页面](https://arxiv.org/abs/1701.01779)上找到该论文。

 这是一种由上而下的两阶段方法：

-*   使用带有 ResNet-101 网络主干的 Faster R-CNN 确定边界框坐标（ *x，y，w，h* ）。 在“第 5 章”，“神经网络架构和模型”中引入了更快的 R-CNN 和 ResNet，但在“第 10 章”中将在实际实现中一起使用它们。 ]，“使用 R-CNN，SSD 和 R-FCN”进行对象检测。 这种分类仅针对人类进行。 调整返回的所有边界框，使其具有固定的纵横比，然后将其裁剪为 353 x 257。
+*   使用带有 ResNet-101 网络主干的 Faster R-CNN 确定边界框坐标（`x, y, w, h`）。 在“第 5 章”，“神经网络架构和模型”中引入了更快的 R-CNN 和 ResNet，但在“第 10 章”中将在实际实现中一起使用它们。 ]，“使用 R-CNN，SSD 和 R-FCN”进行对象检测。 这种分类仅针对人类进行。 调整返回的所有边界框，使其具有固定的纵横比，然后将其裁剪为 353 x 257。
 *   使用 ResNet-101 估算位于每个边界框内的人的 17 个关键点，用 3 x 17 输出替换最后一层。 已经使用分类和回归相结合的方法来找到人体的每个位置与 17 个关键点位置中的每个位置之间的偏移矢量或距离。 每 17 个关键点计算一次距离小于半径的概率，从而得出 17 个热图。 使用 Sigmoid 激活函数训练具有 17 个热图的 ResNet-101 模型。

 # 自下而上的方法

-第二篇论文的标题为 *PersonLab：具有自下而上的，基于零件的几何嵌入模型*的人员姿势估计和实例细分，由第一篇论文的许多相同作者撰写； 分别是 George Papandreou，Tyler Zhu，Chen-Chieh Chen，Spyros Gidaris，Jonathan Tompson 和 Kevin Murphy。 您可以在[这个页面](https://arxiv.org/abs/1803.08225)上找到该论文。
+第二篇论文的标题为《PersonLab：使用自下而上的，基于部分的几何嵌入模型的人员姿势估计和实例细分》，由第一篇论文的许多相同作者撰写； 分别是 George Papandreou，Tyler Zhu，Chen-Chieh Chen，Spyros Gidaris，Jonathan Tompson 和 Kevin Murphy。 您可以在[这个页面](https://arxiv.org/abs/1803.08225)上找到该论文。

 在这种无框的，自下而上的方法中，作者使用卷积神经网络检测单个关键点及其相对位移，以将关键点分组为人的姿势实例。 另外，设计了几何嵌入描述符来确定人员分割。 该模型使用 ResNet-101 和 ResNet-152 体系结构进行训练。

@@ -485,7 +485,7 @@ PoseNet 网站说明了如何调整模型参数。 可以使用以下屏幕快
 3.  此时，您可以用关键点标记图像。 如果为关键点标记图像，则每个图像都必须用相应的关键点表示。
 4.  将图像及其相应的标签加载到两个不同的数组中。

-5.  下一步是执行图像分类，类似于我们在“第 6 章”，*使用迁移学习*进行视觉搜索时所做的工作。
+5.  下一步是执行图像分类，类似于我们在“第 6 章”，“使用迁移学习进行视觉搜索”时所做的工作。
 6.  CNN 模型最多可以包含三个 Conv2D 层，一个最大合并层和一个 ReLU 层。
 7.  对于关键点估计，而不是分类，我们将使用每个关键帧手势位置之间的距离，并选择具有最小距离的手势。

@@ -514,7 +514,7 @@ PoseNet 网站说明了如何调整模型参数。 可以使用以下屏幕快

 在上一个链接中可以找到两个文件：`Chapter9_TF_Accelerometer_activity.ipynb`和`sample.csv`。 下载两个文件，并将它们放在同一文件夹下。

-`sample.csv`文件是一个示例 CSV 文件，其中包含用于六个不同动作的加速度计*（x，y，z）*数据：慢跑（0），步行（1），楼上（2），楼下（3） ，坐（4）和站立（5），每个动作都包含 5,000 个数据点。 在您的实际情况下，这些数据值可能会根据放置位置和所使用的加速度计的类型而有所不同。 最好使用相同的加速度计进行训练数据进行推理，以避免推理错误。
+`sample.csv`文件是一个示例 CSV 文件，其中包含用于六个不同动作的加速度计`(x, y, z)`数据：慢跑（0），步行（1），楼上（2），楼下（3） ，坐（4）和站立（5），每个动作都包含 5,000 个数据点。 在您的实际情况下，这些数据值可能会根据放置位置和所使用的加速度计的类型而有所不同。 最好使用相同的加速度计进行训练数据进行推理，以避免推理错误。

 接下来，根据索引文件将数据分为两部分：训练和测试。 在这里，我们将评估两个不同的分割 18 和 28，这意味着在一种情况下，如果索引文件小于 18，则数据属于 train 文件夹； 否则，它属于测试文件夹。 该模型加载了三个密集（全连接）的层，分辨率为 128。 最终的 softmax 层被 Sigmoid 函数代替。 下图显示了在三种不同情况下模型的迭代：

@@ -536,7 +536,7 @@ PoseNet 网站说明了如何调整模型参数。 可以使用以下屏幕快

 # 将基于视频的动作与姿势估计相结合

-动作识别可以是二维的，也可以是三维的。 二维动作识别方法使用人体的关节信息，以关键点表示。 这些关键点以称为特征图的向量表示。 另一方面，三维动作识别方法不仅需要特征图，还需要全身的骨架数据。 可以使用深度传感器（例如 Microsoft Kinect 或 Intel RealSense）获得此数据。 在 2018 年，Diogo C.Luvizon，David Picard 和 Hedi Tabia 介绍了他们的论文 *2D / 3D 姿势估计和使用多任务深度学习的动作识别*。 可以在[这里](https://arxiv.org/abs/1802.09232)中找到本文的详细信息。
+动作识别可以是二维的，也可以是三维的。 二维动作识别方法使用人体的关节信息，以关键点表示。 这些关键点以称为特征图的向量表示。 另一方面，三维动作识别方法不仅需要特征图，还需要全身的骨架数据。 可以使用深度传感器（例如 Microsoft Kinect 或 Intel RealSense）获得此数据。 在 2018 年，Diogo C.Luvizon，David Picard 和 Hedi Tabia 介绍了他们的论文 《使用多任务深度学习的 2D/3D 姿势估计和动作识别》。 可以在[这里](https://arxiv.org/abs/1802.09232)中找到本文的详细信息。

 在本文中，作者在一个多任务框架中将基于高级人体关节的姿势信息与低级视觉特征（来自对象识别和特征识别）集成在一起。 该方法能够进行二维和三维动作识别。 使用体积表示将二维姿态图扩展为三维图。

@@ -544,7 +544,7 @@ PoseNet 网站说明了如何调整模型参数。 可以使用以下屏幕快

 # 使用 4D 方法进行动作识别

-4D 动作识别意味着体积表示的三维动作是时间的函数。 可以将其视为对动作进行批量跟踪。 全全友和郝江提出了一种新颖的 4D 方法，名为 *Action4D：人群和杂物中的在线动作识别。* 可以在[这个页面](http://www.hao-jiang.net/papers/conference/cvpr2019.pdf)中找到本文的详细信息。
+4D 动作识别意味着体积表示的三维动作是时间的函数。 可以将其视为对动作进行批量跟踪。 全全友和郝江提出了一种新颖的 4D 方法，名为《Action4D：人群和杂物中的在线动作识别》。可以在[这个页面](http://www.hao-jiang.net/papers/conference/cvpr2019.pdf)中找到本文的详细信息。

 该方法使用 4D 表示跟踪人类，并在混乱和拥挤的环境中识别他们的行为。 本文的概念如下：