Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
surelion
apachecn-dl-zh
提交
110a2901
A
apachecn-dl-zh
项目概览
surelion
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
110a2901
编写于
8月 15, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-08-15 20:10:11
上级
01e0170c
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
docs/tf-1x-dl-cookbook/14.md
docs/tf-1x-dl-cookbook/14.md
+3
-3
未找到文件。
docs/tf-1x-dl-cookbook/14.md
浏览文件 @
110a2901
...
@@ -4,7 +4,7 @@ Google 服务(例如 Google 搜索(RankBrain),街景,Google 照片和
...
@@ -4,7 +4,7 @@ Google 服务(例如 Google 搜索(RankBrain),街景,Google 照片和
您可能在想什么是 TPU,这些服务有什么好处? 所有这些服务都在后台使用最新的机器学习算法,并且这些算法涉及大量计算。 TPU 有助于加速所涉及的神经网络计算。 甚至 AlphaGo,一种在 Go 游戏中击败 Lee Sedol 的深度学习程序,都由 TPU 推动。 因此,让我们看看 TPU 到底是什么。
您可能在想什么是 TPU,这些服务有什么好处? 所有这些服务都在后台使用最新的机器学习算法,并且这些算法涉及大量计算。 TPU 有助于加速所涉及的神经网络计算。 甚至 AlphaGo,一种在 Go 游戏中击败 Lee Sedol 的深度学习程序,都由 TPU 推动。 因此,让我们看看 TPU 到底是什么。
TPU 是 Google 专门为机器学习而定制的定制专用集成电路(
**ASIC**
),是针对 Tensorflow 量身定制的。 它基于 28 纳米工艺构建,运行频率为 700 MHz,运行时消耗 40 W 的能量。 它包装为外部加速卡,可以插入现有的 SATA 硬盘插槽中。 TPU 通过 PCIe Gen 3×16 总线连接到主机 CPU,该总线提供 12.5 GB
/
s 的有效带宽。
TPU 是 Google 专门为机器学习而定制的定制专用集成电路(
**ASIC**
),是针对 Tensorflow 量身定制的。 它基于 28 纳米工艺构建,运行频率为 700 MHz,运行时消耗 40 W 的能量。 它包装为外部加速卡,可以插入现有的 SATA 硬盘插槽中。 TPU 通过 PCIe Gen 3×16 总线连接到主机 CPU,该总线提供 12.5 GB
/
s 的有效带宽。
到目前为止,第一代 TPU 的目标是推理,即使用已经训练好的模型。 DNN 的训练通常需要更多时间,但仍在 CPU 和 GPU 上进行。 在
[
2017 年 5 月的博客文章
](
https://www.blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/
)
中宣布的第二代 TPU 都可以训练和推断机器学习模型。
到目前为止,第一代 TPU 的目标是推理,即使用已经训练好的模型。 DNN 的训练通常需要更多时间,但仍在 CPU 和 GPU 上进行。 在
[
2017 年 5 月的博客文章
](
https://www.blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/
)
中宣布的第二代 TPU 都可以训练和推断机器学习模型。
...
@@ -12,7 +12,7 @@ TPU 是 Google 专门为机器学习而定制的定制专用集成电路(**ASI
...
@@ -12,7 +12,7 @@ TPU 是 Google 专门为机器学习而定制的定制专用集成电路(**ASI
在本书涵盖的所有深度学习模型中,无论学习范例如何,都需要进行三个基本计算:乘法,加法和激活函数的应用。
在本书涵盖的所有深度学习模型中,无论学习范例如何,都需要进行三个基本计算:乘法,加法和激活函数的应用。
前两个成分是矩阵乘法的一部分:权重矩阵
***W**
* 需要与输入矩阵 *
**X**
* 相乘 *
**W <sup>T</sup> X**
*
; 矩阵乘法在 CPU 上的计算量很大,尽管 GPU 使操作并行化,但仍有改进的余地。
前两个成分是矩阵乘法的一部分:权重矩阵
`W`
需要与输入矩阵
`X`
相乘
`W^T · X`
; 矩阵乘法在 CPU 上的计算量很大,尽管 GPU 使操作并行化,但仍有改进的余地。
TPU 具有 65,536 个 8 位整数矩阵乘法器单元(
**MXU**
),峰值吞吐量为 92 TOPS。 GPU 和 TPU 乘法之间的主要区别在于 GPU 包含浮点乘法器,而 TPU 包含 8 位整数乘法器。 TPU 还包含一个统一缓冲区(
**UB**
),用作寄存器的 24 MB SRAM 和一个包含硬接线激活函数的激活单元(
**AU**
)。
TPU 具有 65,536 个 8 位整数矩阵乘法器单元(
**MXU**
),峰值吞吐量为 92 TOPS。 GPU 和 TPU 乘法之间的主要区别在于 GPU 包含浮点乘法器,而 TPU 包含 8 位整数乘法器。 TPU 还包含一个统一缓冲区(
**UB**
),用作寄存器的 24 MB SRAM 和一个包含硬接线激活函数的激活单元(
**AU**
)。
...
@@ -53,5 +53,5 @@ Imagine a future in which ML acceleration is abundant and develop new kinds of m
...
@@ -53,5 +53,5 @@ Imagine a future in which ML acceleration is abundant and develop new kinds of m
# TPU 上的资源
# TPU 上的资源
*
Norman P.Jouppi 等人,
*张量处理单元*
的数据中心内性能分析,arXiv 预印本
arXiv:1704.04760(2017)。 在本文中,作者将 TPU 与服务器级的 Intel Haswell CPU 和 NVIDIA k80 GPU 进行了比较。 本文以 TPU 与 CPU 和 K80 GPU 的性能为基准。
*
Norman P.Jouppi 等人,
张量处理单元的数据中心内性能分析,
arXiv:1704.04760(2017)。 在本文中,作者将 TPU 与服务器级的 Intel Haswell CPU 和 NVIDIA k80 GPU 进行了比较。 本文以 TPU 与 CPU 和 K80 GPU 的性能为基准。
*
[
此 Google 博客通过以下简单术语说明了 TPU 及其工作原理
](
https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu
)
*
[
此 Google 博客通过以下简单术语说明了 TPU 及其工作原理
](
https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu
)
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录