***快速上市时间**(**TTM**):有了前面列出的所有优点,采用 Cloud First 策略将各种概念和原型的 TTM 降至最低。
Google 通过从头开始构建服务,从而为企业提供云服务时采取了创新的方法。 这些服务最初是由 Google 自己内部用于搜索和其他互联网规模的服务而构建的。 该平台迅速成熟,形成了一套完整的套件,可用于开发整个简单范围的应用程序,从简单的 Web 应用程序开始,再到微服务和高级分析,这些功能利用了大量的结构化和非结构化数据以及 GPU 和 **张量处理单元**(**TPU**),用于训练计算密集型模型。 在本书的“第 7 章”,*了解云 TPU* 中,我们将深入研究 TPU 并详细了解 TPU。 在本书中,我们将详细了解 GCP 的各个组成部分,并将专门研究如何利用 GCP 部署**人工智能**(**AI**)工作负载以及各种应用程序的无缝集成 作为服务。
...
...
@@ -146,22 +146,22 @@ Google 简化了在 GCP 上使用现成的 AI 构建块构建 AI 系统的过程
Sight 是指智能机器的可视界面。 GCP 提供以下用于视觉信息和情报的 API:
***Cloud Vision API**:这是在 GCP 上经过预先训练的模型之上的**代表性状态转移**(**REST**)API 抽象。 API 可以将图像分为通用类别和特定对象。 它还可以读取图像中的文本。 随 Cloud Vision API 开箱即用地提供了图像元数据管理以及对特定应用程序不需要的内容的审核。 从图像中收集见解非常简单,无缝。 此 API 的一些常见用例是图像搜索,文档分类和产品搜索(零售)。 下图显示了 Cloud Vision API 的各种应用程序和用例:
***Cloud Vision API**:这是在 GCP 上经过预先训练的模型之上的**代表性状态转移**(**REST**)API 抽象。 API 可以将图像分为通用类别和特定对象。 它还可以读取图像中的文本。 随 Cloud Vision API 开箱即用地提供了图像元数据管理以及对特定应用程序不需要的内容的审核。 从图像中收集见解非常简单,无缝。 此 API 的一些常见用例是图像搜索,文档分类和产品搜索(零售)。 下图显示了 Cloud Vision API 的各种应用程序和用例:
![](img/20038c09-29c1-4f48-a1c0-e25b12119802.png)
***Cloud Video Intelligence API**:这是一种 REST API,可以从视频供稿中提取信息,并可以从视频数据中搜索和提取元数据。 该 API 易于使用,并且包含超过 20,000 个预定义标签的列表。 该 API 还提供了视频标签和内容之间的互操作性,当视频资产存储在 Google Cloud Storage 中时,可以跨视频资产进行基于文本的搜索。 下图显示了 Cloud Video Intelligence API 的各种应用程序和用例:
***Cloud Video Intelligence API**:这是一种 REST API,可以从视频供稿中提取信息,并可以从视频数据中搜索和提取元数据。 该 API 易于使用,并且包含超过 20,000 个预定义标签的列表。 该 API 还提供了视频标签和内容之间的互操作性,当视频资产存储在 Google Cloud Storage 中时,可以跨视频资产进行基于文本的搜索。 下图显示了 Cloud Video Intelligence API 的各种应用程序和用例:
***Cloud Translation API**:此 API 根据预先训练的模型以及可以使用 AutoML 翻译框架进行训练的自定义模型,在两种语言之间提供双向翻译。 当源文本的语言未知时,API 还可促进语言检测。 与其他 AI 服务类似,翻译服务也可用作 REST API,用于在应用程序内进行编程访问和集成。 在撰写本文时,支持 100 种语言。 无需显式解析即可翻译 HTML 内容的独特功能使提供网页翻译以及创建多语言站点和应用程序变得容易。
***Cloud Natural Language API**:此 API 提供了对基于预训练模型以及可以使用 AutoML Natural Language 框架进行训练的自定义模型的非结构化文本和音频数据的见解。 API 可以根据各种形式的非结构化文本来收集有关人员,地点,事件,情感等的信息。 在内部,该服务利用丰富的本体图和不断发展的模型来提高准确性。 此 API 可能会使用的一些常见用例是客户情感分析和产品分类(零售市场研究)。 易于使用的 REST API 有助于语法分析,实体识别,情感分析和内容分类,并支持多种语言。
***Cloud Translation API**:此 API 根据预先训练的模型以及可以使用 AutoML 翻译框架进行训练的自定义模型,在两种语言之间提供双向翻译。 当源文本的语言未知时,API 还可促进语言检测。 与其他 AI 服务类似,翻译服务也可用作 REST API,用于在应用程序内进行编程访问和集成。 在撰写本文时,支持 100 种语言。 无需显式解析即可翻译 HTML 内容的独特功能使提供网页翻译以及创建多语言站点和应用程序变得容易。
***Cloud Natural Language API**:此 API 提供了对基于预训练模型以及可以使用 AutoML Natural Language 框架进行训练的自定义模型的非结构化文本和音频数据的见解。 API 可以根据各种形式的非结构化文本来收集有关人员,地点,事件,情感等的信息。 在内部,该服务利用丰富的本体图和不断发展的模型来提高准确性。 此 API 可能会使用的一些常见用例是客户情感分析和产品分类(零售市场研究)。 易于使用的 REST API 有助于语法分析,实体识别,情感分析和内容分类,并支持多种语言。
GCP 提供了 API,可通过 Dialogflow 和 Google Cloud Text-to-Speech / Speech-to-Text API 与智能机实现语音和对话界面。
以下是 AI 工具包中可利用的组件: 在我们的应用程序中,我们将利用云机器学习,自然语言 API,视觉 API,翻译 API,语音 API 和云视频智能 API:
***云机器学习**:这是一个全面的平台,可利用 Google Cloud 的功能,使训练和部署可用于任何类型和大小的数据的 ML 模型变得容易。 在平台上培训的模型可以立即使用,并且可以通过安全的 API 进行访问,从而可以以最少的资金和时间投入轻松开发应用程序的快速原型。
***自然语言 API**:自然语言 API 可用于执行 Web 规模的文本分析。 该 API 与 AutoML 集成在一起,并允许用户基于非结构化数据来训练,测试和部署其模型。 有预训练的模型,具有各种功能域的各种应用程序可以轻松利用这些模型。 该平台使协作和共享不断被平台升级的模型变得容易,从而提供了一种一致且可靠的方式来创建用于处理自然语言形式输入的应用程序。 这样可以通过语音 API 与人进行数据交互。
***自然语言 API**:自然语言 API 可用于执行 Web 规模的文本分析。 该 API 与 AutoML 集成在一起,并允许用户基于非结构化数据来训练,测试和部署其模型。 有预训练的模型,具有各种功能域的各种应用程序可以轻松利用这些模型。 该平台使协作和共享不断被平台升级的模型变得容易,从而提供了一种一致且可靠的方式来创建用于处理自然语言形式输入的应用程序。 这样可以通过语音 API 与人进行数据交互。
***视觉 API**:这在基于视觉输入(例如图像)的分析中非常方便。 如果机器具有补充人类视觉的能力(例如从 PDF 或 Word 文档抄录文本),我们可以将大量 API 用于此用例。 这样,可以以有效和具有成本效益的方式对大量文档进行分类。 无需大量设置即可使用该服务,因此,一旦为项目和用户帐户启用了该服务,就可以轻松无缝地开始使用它。 强大的 API 层使您可以轻松以安全的方式与第三方应用程序集成。
***Translation API**:这是一种便捷的服务,无需设置转换规则即可使用。 该 API 允许根据预先训练并不断发展的模型在各种语言之间进行翻译。 这些功能易于使用,为语言互操作性以及以各种语言构建的各种应用程序之间的集成打开了可能性。
***语音 API**:这是智能机器的重要方面,它使人与应用程序之间具有类似人的界面。 首先,API 启用了文本到语音到文本的转换。 这些功能可用于创建对话应用程序。 DialogFlow 在内部利用语音 API 来促进对话。
***Cloud Video Intelligence API**:此 API 使我们能够利用视频输入中的信息。 GCP 上有可用的预训练模型,这些模型可用于分类和识别视频帧内的特定对象。 它是自动驾驶汽车的组成部分之一,API 高效且可扩展,足以在关键任务应用中使用。
***视觉 API**:这在基于视觉输入(例如图像)的分析中非常方便。 如果机器具有补充人类视觉的能力(例如从 PDF 或 Word 文档抄录文本),我们可以将大量 API 用于此用例。 这样,可以以有效和具有成本效益的方式对大量文档进行分类。 无需大量设置即可使用该服务,因此,一旦为项目和用户帐户启用了该服务,就可以轻松无缝地开始使用它。 强大的 API 层使您可以轻松以安全的方式与第三方应用程序集成。
***Translation API**:这是一种便捷的服务,无需设置转换规则即可使用。 该 API 允许根据预先训练并不断发展的模型在各种语言之间进行翻译。 这些功能易于使用,为语言互操作性以及以各种语言构建的各种应用程序之间的集成打开了可能性。
***语音 API**:这是智能机器的重要方面,它使人与应用程序之间具有类似人的界面。 首先,API 启用了文本到语音到文本的转换。 这些功能可用于创建对话应用程序。 DialogFlow 在内部利用语音 API 来促进对话。
***Cloud Video Intelligence API**:此 API 使我们能够利用视频输入中的信息。 GCP 上有可用的预训练模型,这些模型可用于分类和识别视频帧内的特定对象。 它是自动驾驶汽车的组成部分之一,API 高效且可扩展,足以在关键任务应用中使用。
在下一部分中,概述了 GCP 上可用于构建端到端 AI 应用程序的各种组件,下面让我们看一下如何在 GCP 上构建自动发票处理应用程序。
...
...
@@ -299,7 +299,7 @@ Vision API 还将 PDF 文件中找到的所有符号收集到一个文本字段
***有条件的 GAN**:假设您有一个 GAN 可以生成 10 个不同类别的样本,但是在某个时候,您希望它在给定类别或一组类别内生成样本。 这是有条件 GAN 起作用的时候。有条件 GAN 使我们可以生成 GAN 中经过训练可以生成的所有标签中任何给定标签的样本。 在图像到图像的翻译领域中,已经完成了条件 GAN 的一种非常流行的应用,其中将一个图像生成为相似或相同域的另一个更逼真的图像。 您可以通过[这个页面](https://affinelayer.com/pixsrv/)上的演示来尝试涂鸦一些猫,并获得涂鸦的真实感版本。
***堆叠式 GAN**:堆叠式 GAN 的最流行的应用是基于文本描述生成图像。 在第一阶段,GAN 生成描述项的概述,在第二阶段,根据描述添加颜色。 然后,后续层中的 GAN 将更多细节添加到图像中,以生成图像的真实感版本,如描述中所述。 通过观察堆叠 GAN 的第一次迭代中的图像已经处于将要生成最终输出的尺寸,可以将堆叠式 GAN 与渐进式 GAN 区别开来。但是,与渐进式 GAN 相似,在第一次迭代中, 图像是最小的,并且需要进一步的层才能将其馈送到鉴别器。
***有条件的 GAN**:假设您有一个 GAN 可以生成 10 个不同类别的样本,但是在某个时候,您希望它在给定类别或一组类别内生成样本。 这是有条件 GAN 起作用的时候。有条件 GAN 使我们可以生成 GAN 中经过训练可以生成的所有标签中任何给定标签的样本。 在图像到图像的翻译领域中,已经完成了条件 GAN 的一种非常流行的应用,其中将一个图像生成为相似或相同域的另一个更逼真的图像。 您可以通过[这个页面](https://affinelayer.com/pixsrv/)上的演示来尝试涂鸦一些猫,并获得涂鸦的真实感版本。
***堆叠式 GAN**:堆叠式 GAN 的最流行的应用是基于文本描述生成图像。 在第一阶段,GAN 生成描述项的概述,在第二阶段,根据描述添加颜色。 然后,后续层中的 GAN 将更多细节添加到图像中,以生成图像的真实感版本,如描述中所述。 通过观察堆叠 GAN 的第一次迭代中的图像已经处于将要生成最终输出的尺寸,可以将堆叠式 GAN 与渐进式 GAN 区别开来。但是,与渐进式 GAN 相似,在第一次迭代中, 图像是最小的,并且需要进一步的层才能将其馈送到鉴别器。
在此项目中,我们将讨论 GAN 的另一种形式,称为**超分辨率 GAN**(**SRGAN**)。 我们将在下一部分中了解有关此变体的更多信息。