提交 e0e4f59d 编写于 作者: W wizardforcel

2021-01-02 18:03:09

上级 0fa82cc5
......@@ -200,7 +200,7 @@ rs = tf.image.resize(img[:, y:y+h, x:x+w, :], (self.pool_size, self.pool_size))
在本节中,我们将描述如何创建注释文件。 每个图像文件对应一个注释文件。 注释文件通常为`.xml`格式。 此处描述了创建注释文件的步骤:
1. 在此步骤中,使用`labelImg`创建注释文件。 此步骤已经在“第 7 章”,*使用 YOLO 的对象检测*中进行了讨论,但此处再次重复。 使用终端命令`pip install labelImg`下载`labelImg`
1. 在此步骤中,使用`labelImg`创建注释文件。 此步骤已经在“第 7 章”,“使用 YOLO 的对象检测”中进行了讨论,但此处再次重复。 使用终端命令`pip install labelImg`下载`labelImg`
2. 下载后,只需在终端中键入`labelImg`即可打开。
3. 定义源(`.jpg`文件)和目标(`.xml`文件)目录。
4. 选择每个图像并在其周围绘制一个矩形。 定义类名称并保存。
......@@ -672,7 +672,7 @@ SiamMask 使用单个边界框初始化并以每秒 55 帧的速度跟踪对象
* 使用简单的两层 1 x 1 卷积神经网络 *hf* 设计`w`x`h`二元掩码(每个特征图一个)。 第一层具有 256 个通道,第二层具有 63 x 63 通道。
* ResNet-50 用于 CNN,直到第三阶段结束为止,最后以 1 x 1 卷积层结束。 请注意,ResNet-50 具有四个阶段,但仅考虑了前三个阶段,并且对步幅 1 的卷积进行了修改,以将输出步幅减小到 8。
* 在 DeepLab 中使用了扩张的(无意义的)卷积(在 “第 8 章”,*语义分割和神经样式转换*中进行了详细描述)以增加接收场。 ResNet 第三阶段的最终输出附加了具有 256 个输出的 1 x 1 卷积。
* 在 DeepLab 中使用了扩张的(无意义的)卷积(在 “第 8 章”,“语义分割和神经样式转换”中进行了详细描述)以增加接收场。 ResNet 第三阶段的最终输出附加了具有 256 个输出的 1 x 1 卷积。
可在[这里](https://github.com/foolwood/SiamMask) 上找到有关 SiamMask 实现以及培训的详细信息。 SiamMask 也可以在[这个页面](https://colab.research.google.com/github/tugstugi/dl-colab-notebooks/blob/master/notebooks/SiamMask.ipynb)上使用 请注意,为了使其成功运行,视频文件必须以人像开头。
......
......@@ -19,6 +19,6 @@
本节包括以下章节:
* “第 1 章”,“计算机视觉和 TensorFlow 基础知识”
* “第 2 章”,*使用本地二进制模式*的内容识别
* “第 2 章”,“使用本地二进制模式的内容识别”
* “第 3 章”,“使用 OpenCV 和 CNN 进行面部检测”
* “第 4 章”,“图像深度学习”
\ No newline at end of file
......@@ -18,5 +18,5 @@
* “第 5 章”,“神经网络架构和模型”
* “第 6 章”,“使用转移学习的视觉搜索”
* “第 7 章”,*使用 YOLO 的对象检测*
* “第 8 章”,*语义分割和神经样式转换*
\ No newline at end of file
* “第 7 章”,“使用 YOLO 的对象检测”
* “第 8 章”,“语义分割和神经样式转换”
\ No newline at end of file
......@@ -18,4 +18,4 @@
本节包括以下章节:
* “第 9 章”,“使用多任务深度学习的动作识别”
* “第 10 章”,*使用 R-CNN,SSD 和 R-FCN 进行对象检测*
\ No newline at end of file
* “第 10 章”,“使用 R-CNN,SSD 和 R-FCN 进行对象检测”
\ No newline at end of file
......@@ -17,4 +17,4 @@
本节包括以下章节:
* “第 11 章”,“通过 CPU / GPU 优化在边缘设备上进行深度学习”
* “第 12 章”,*用于计算机视觉的云计算平台*
\ No newline at end of file
* “第 12 章”,“用于计算机视觉的云计算平台”
\ No newline at end of file
......@@ -14,25 +14,25 @@
# 本书涵盖的内容
“第 1 章”,*移动深度学习简介*讨论了移动设备上深度学习的新兴重要性。 它涵盖了机器学习和深度学习的基本概念,还向您介绍了可用于将深度学习与 Android 和 iOS 集成的各种选项。 本章还介绍了使用本机和基于云的学习方法进行深度学习项目的实现。
“第 1 章”,“移动深度学习简介”讨论了移动设备上深度学习的新兴重要性。 它涵盖了机器学习和深度学习的基本概念,还向您介绍了可用于将深度学习与 Android 和 iOS 集成的各种选项。 本章还介绍了使用本机和基于云的学习方法进行深度学习项目的实现。
“第 2 章”,*移动视觉–使用设备上模型的人脸检测*向您介绍 ML Kit 中提供的移动视觉和移动视觉模型。 您将学习如何在 Keras 中创建人脸检测模型,并了解如何将其转换为可用于移动设备的模型。 该模型使用 Google Cloud Vision API 进行面部检测。
“第 2 章”,“移动视觉–使用设备上模型的人脸检测”向您介绍 ML Kit 中提供的移动视觉和移动视觉模型。 您将学习如何在 Keras 中创建人脸检测模型,并了解如何将其转换为可用于移动设备的模型。 该模型使用 Google Cloud Vision API 进行面部检测。
“第 3 章”, *Chatbot 在 Google*使用操作,可以通过扩展 Google Assistant 的功能来创建自己的自定义聊天机器人。 该项目很好地理解了如何使用 Google Actions 和 Dialogflow 的 API 构建使用引人入胜的基于语音和文本的会话界面的产品。
“第 3 章”,“Google 上的聊天机器人”使用操作,可以通过扩展 Google Assistant 的功能来创建自己的自定义聊天机器人。 该项目很好地理解了如何使用 Google Actions 和 Dialogflow 的 API 构建使用引人入胜的基于语音和文本的会话界面的产品。
“第 4 章”,*识别植物物种*提供了有关如何构建自定义 Tensorflow Lite 模型的深入讨论,该模型能够使用图像处理执行视觉识别任务。 开发的模型在移动设备上运行,主要用于识别不同的植物物种。 该模型使用深层**卷积神经网络****CNN**)进行视觉识别。
“第 4 章”,“识别植物物种”提供了有关如何构建自定义 Tensorflow Lite 模型的深入讨论,该模型能够使用图像处理执行视觉识别任务。 开发的模型在移动设备上运行,主要用于识别不同的植物物种。 该模型使用深层**卷积神经网络****CNN**)进行视觉识别。
“第 5 章”,*从摄像机供稿生成实时字幕*提出了一种使用摄像机供稿实时生成自然语言字幕的方法。 在这个项目中,您将创建自己的相机应用程序,该应用程序使用由图像标题生成器生成的自定义预训练模型。 该模型使用 CNN 和**长短期记忆****LSTM**)生成字幕。
“第 5 章”,“从摄像机供稿生成实时字幕”提出了一种使用摄像机供稿实时生成自然语言字幕的方法。 在这个项目中,您将创建自己的相机应用程序,该应用程序使用由图像标题生成器生成的自定义预训练模型。 该模型使用 CNN 和**长短期记忆****LSTM**)生成字幕。
“第 6 章”,*构建人工智能身份验证系统*为您提供了验证用户身份并创建识别稀有和可疑用户交互的机制的方法。 在识别罕见事件(即与大多数数据不同的事件)后,不允许用户登录,并收到一条消息,指出检测到恶意用户。 当相关应用程序包含高度安全的数据(例如机密电子邮件或虚拟银行保险库)时,这可能会很有用。 该项目在网络请求标头上使用基于 LSTM 的模型来对异常登录进行分类。
“第 6 章”,“构建人工智能身份验证系统”为您提供了验证用户身份并创建识别稀有和可疑用户交互的机制的方法。 在识别罕见事件(即与大多数数据不同的事件)后,不允许用户登录,并收到一条消息,指出检测到恶意用户。 当相关应用程序包含高度安全的数据(例如机密电子邮件或虚拟银行保险库)时,这可能会很有用。 该项目在网络请求标头上使用基于 LSTM 的模型来对异常登录进行分类。
“第 7 章”,*语音/多媒体处理-使用 AI 生成音乐*探索了使用 AI 生成音乐的方法。 将向您介绍多媒体处理。 本章演示了样本训练后用于生成音乐的方法。 该项目使用循环神经网络和基于 LSTM 的模型来生成 MIDI 音乐文件。
“第 7 章”,“语音/多媒体处理-使用 AI 生成音乐”探索了使用 AI 生成音乐的方法。 将向您介绍多媒体处理。 本章演示了样本训练后用于生成音乐的方法。 该项目使用循环神经网络和基于 LSTM 的模型来生成 MIDI 音乐文件。
“第 8 章”,*基于增强型神经网络的国际象棋引擎*讨论了 Google 的 DeepMind,以及如何将增强型神经网络用于 Android 平台上的机器辅助游戏。 首先,您将创建一个 Connect4 引擎,以直观地构建自学习,玩游戏的 AI。 然后,您将开发基于深度强化学习的国际象棋引擎,并将其作为 API 托管在 **Google Cloud Platform****GCP**)上。 然后,您将使用国际象棋引擎的 API 在移动设备上执行游戏。
“第 8 章”,“基于增强型神经网络的国际象棋引擎”讨论了 Google 的 DeepMind,以及如何将增强型神经网络用于 Android 平台上的机器辅助游戏。 首先,您将创建一个 Connect4 引擎,以直观地构建自学习,玩游戏的 AI。 然后,您将开发基于深度强化学习的国际象棋引擎,并将其作为 API 托管在 **Google Cloud Platform****GCP**)上。 然后,您将使用国际象棋引擎的 API 在移动设备上执行游戏。
“第 9 章”,*构建图像超分辨率应用程序*提出了一种借助深度学习生成超分辨率图像的方法。 您将学习在 Android / iOS 上处理图像的第三种方法,以及如何创建可在 DigitalOcean 上托管并包含在 Android / iOS 应用程序中的 TensorFlow 模型。 由于此模型的资源非常密集,因此将指导您如何在云上托管该模型。 该项目使用生成对抗网络。
“第 9 章”,“构建图像超分辨率应用程序”提出了一种借助深度学习生成超分辨率图像的方法。 您将学习在 Android / iOS 上处理图像的第三种方法,以及如何创建可在 DigitalOcean 上托管并包含在 Android / iOS 应用程序中的 TensorFlow 模型。 由于此模型的资源非常密集,因此将指导您如何在云上托管该模型。 该项目使用生成对抗网络。
“第 10 章” [,*未来之路*简要介绍了当今移动应用程序中最受欢迎的深度学习应用程序,当前趋势以及在该领域中有望发展的技术。 未来。](https://cdp.packtpub.com/mobile_deep_learning_projects/wp-admin/post.php?post=888&action=edit#post_33)
“第 10 章”,“未来之路”简要介绍了当今移动应用程序中最受欢迎的深度学习应用程序,当前趋势以及在该领域中有望发展的技术。
# 充分利用这本书
......
......@@ -21,7 +21,7 @@
考虑使用自动驾驶车辆进行图像处理。 车辆需要尽可能接近实时地做出决策,以确保最佳的无事故驾驶。 汽车驾驶 AI 模型的响应延迟可能会导致灾难性后果。 已经开发了几种技术和算法来进行快速和准确的图像处理。 图像处理领域中最著名的算法之一是**卷积神经网络****CNN**)。
我们不会在本章中开发完整的 CNN,但是,我们在 “第 1 章”,*移动深度学习简介*中简要讨论了 CNN。 稍后,我们将使用设备上存在的预训练模型构建面部检测 Flutter 应用。
我们不会在本章中开发完整的 CNN,但是,我们在 “第 1 章”,“移动深度学习简介”中简要讨论了 CNN。 稍后,我们将使用设备上存在的预训练模型构建面部检测 Flutter 应用。
# 了解图像
......@@ -111,7 +111,7 @@
# 使用 Flutter 开发人脸检测应用程序
通过“第 1 章”,*移动深度学习简介*以及如何在最基本的水平上完成图像处理,对 CNN 的工作原理有了基本的了解,我们准备继续进行 使用 Firebase ML Kit 中的预训练模型来检测给定图像中的人脸。
通过“第 1 章”,“移动深度学习简介”以及如何在最基本的水平上完成图像处理,对 CNN 的工作原理有了基本的了解,我们准备继续进行 使用 Firebase ML Kit 中的预训练模型来检测给定图像中的人脸。
我们将使用 Firebase ML Kit 人脸检测 API 来检测图像中的人脸。 Firebase Vision 人脸检测 API 的主要功能如下:
......
......@@ -32,7 +32,7 @@
研究人员每天都在努力克服图像处理中的若干挑战,例如戴眼镜或新留胡子的人的脸部识别,在拥挤的地方通过脸部识别和跟踪多个人,以及新样式的字符识别。 手写或全新的语言。 深度学习一直以来都是克服这些挑战的好工具,它能够学习图像中的几种不可见图案。
深度学习中用于图像处理的一种非常常见的方法是部署 CNN,我们已经在前面的章节中进行了介绍。 要查看其概念和基本工作,请参阅“第 2 章”,*移动视觉–使用设备上模型的人脸检测*。 在这个项目中,我们将介绍如何将这些模型转换为可以在移动设备上高效运行的压缩模型。
深度学习中用于图像处理的一种非常常见的方法是部署 CNN,我们已经在前面的章节中进行了介绍。 要查看其概念和基本工作,请参阅“第 2 章”,“移动视觉–使用设备上模型的人脸检测”。 在这个项目中,我们将介绍如何将这些模型转换为可以在移动设备上高效运行的压缩模型。
您可能想知道我们将如何构建这些模型。 为了简化语法,对 TensorFlow API 的强大支持以及广泛的技术支持社区,我们将使用 Python 构建这些模型。 很明显,您的开发计算机上将需要 Python 运行时,但对于该项目,我们将选择一种更快,更强大的选项-Google 的 Colaboratory 环境。 Colaboratory(或简称为 Colab)为即时可用的运行时提供了几个重要的**机器学习****ML**)以及与运行时预装的数据科学相关的模块。 另外,Colaboratory 还为启用**图形处理单元****GPU**)和 **Tensor Processing Unit****TPU**)的运行时提供支持。 训练深度学习模型可谓小菜一碟。 然后,我们将直接在设备上部署 TensorFlow Lite 模型,这是一种适合快速运行且不需要定期更新的模型的良好做法。
......@@ -481,7 +481,7 @@ sdk: flutter
image_picker: ^0.6.0
```
有关发布依赖关系的详细讨论,请参阅“第 2 章”,*移动视觉–使用设备上模型的面部检测*。 确保运行`Flutter`软件包以在项目中包含依赖项。 要了解有关`image_picker`插件的更多信息,请访问[这里](https://github.com/flutter/plugins/tree/master/packages/image_picker)
有关发布依赖关系的详细讨论,请参阅“第 2 章”,“移动视觉–使用设备上模型的面部检测”。 确保运行`Flutter`软件包以在项目中包含依赖项。 要了解有关`image_picker`插件的更多信息,请访问[这里](https://github.com/flutter/plugins/tree/master/packages/image_picker)
2. 将库导入到`PlantSpeciesRecognition.dart`中,如下所示:
......
......@@ -82,7 +82,7 @@ MNN 具有高度的通用性,并为市场上大多数流行的框架提供支
# 自我注意生成对抗网络
我们在“第 9 章”,*构建图像超分辨率应用程序*中讨论了**生成对抗网络****GAN**)的应用 低分辨率图像中的高分辨率图像。 GAN 在学习模仿艺术和图案方面做得相当不错。 但是,在需要记住更长的序列的情况下,以及在序列的多个部分对于生成生成的输出很重要的情况下,它们无法很好地执行。 因此,我们期待 Ian Goodfellow 及其团队推出的**自我注意力 GAN****SAGAN**),它们是允许对图像进行注意力驱动的远程依赖建模的 GAN 系统 代任务。 该系统在 ImageNet 数据集上具有更好的性能,并有望在将来被广泛采用。
我们在“第 9 章”,“构建图像超分辨率应用程序”中讨论了**生成对抗网络****GAN**)的应用 低分辨率图像中的高分辨率图像。 GAN 在学习模仿艺术和图案方面做得相当不错。 但是,在需要记住更长的序列的情况下,以及在序列的多个部分对于生成生成的输出很重要的情况下,它们无法很好地执行。 因此,我们期待 Ian Goodfellow 及其团队推出的**自我注意力 GAN****SAGAN**),它们是允许对图像进行注意力驱动的远程依赖建模的 GAN 系统 代任务。 该系统在 ImageNet 数据集上具有更好的性能,并有望在将来被广泛采用。
Jason Antic 的 DeOldify 项目是使用 SAGANs 完成的工作的衍生产品。 该项目旨在将色彩带入旧的图像和视频中,从而使它们似乎从来没有缺少色彩。 以下屏幕快照显示了 DeOldify 项目的示例:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册