Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
surelion
apachecn-dl-zh
提交
110a2901
A
apachecn-dl-zh
项目概览
surelion
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
110a2901
编写于
8月 15, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-08-15 20:10:11
上级
01e0170c
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
docs/tf-1x-dl-cookbook/14.md
docs/tf-1x-dl-cookbook/14.md
+3
-3
未找到文件。
docs/tf-1x-dl-cookbook/14.md
浏览文件 @
110a2901
...
...
@@ -4,7 +4,7 @@ Google 服务(例如 Google 搜索(RankBrain),街景,Google 照片和
您可能在想什么是 TPU,这些服务有什么好处? 所有这些服务都在后台使用最新的机器学习算法,并且这些算法涉及大量计算。 TPU 有助于加速所涉及的神经网络计算。 甚至 AlphaGo,一种在 Go 游戏中击败 Lee Sedol 的深度学习程序,都由 TPU 推动。 因此,让我们看看 TPU 到底是什么。
TPU 是 Google 专门为机器学习而定制的定制专用集成电路(
**ASIC**
),是针对 Tensorflow 量身定制的。 它基于 28 纳米工艺构建,运行频率为 700 MHz,运行时消耗 40 W 的能量。 它包装为外部加速卡,可以插入现有的 SATA 硬盘插槽中。 TPU 通过 PCIe Gen 3×16 总线连接到主机 CPU,该总线提供 12.5 GB
/
s 的有效带宽。
TPU 是 Google 专门为机器学习而定制的定制专用集成电路(
**ASIC**
),是针对 Tensorflow 量身定制的。 它基于 28 纳米工艺构建,运行频率为 700 MHz,运行时消耗 40 W 的能量。 它包装为外部加速卡,可以插入现有的 SATA 硬盘插槽中。 TPU 通过 PCIe Gen 3×16 总线连接到主机 CPU,该总线提供 12.5 GB
/
s 的有效带宽。
到目前为止,第一代 TPU 的目标是推理,即使用已经训练好的模型。 DNN 的训练通常需要更多时间,但仍在 CPU 和 GPU 上进行。 在
[
2017 年 5 月的博客文章
](
https://www.blog.google/topics/google-cloud/google-cloud-offer-tpus-machine-learning/
)
中宣布的第二代 TPU 都可以训练和推断机器学习模型。
...
...
@@ -12,7 +12,7 @@ TPU 是 Google 专门为机器学习而定制的定制专用集成电路(**ASI
在本书涵盖的所有深度学习模型中,无论学习范例如何,都需要进行三个基本计算:乘法,加法和激活函数的应用。
前两个成分是矩阵乘法的一部分:权重矩阵
***W**
* 需要与输入矩阵 *
**X**
* 相乘 *
**W <sup>T</sup> X**
*
; 矩阵乘法在 CPU 上的计算量很大,尽管 GPU 使操作并行化,但仍有改进的余地。
前两个成分是矩阵乘法的一部分:权重矩阵
`W`
需要与输入矩阵
`X`
相乘
`W^T · X`
; 矩阵乘法在 CPU 上的计算量很大,尽管 GPU 使操作并行化,但仍有改进的余地。
TPU 具有 65,536 个 8 位整数矩阵乘法器单元(
**MXU**
),峰值吞吐量为 92 TOPS。 GPU 和 TPU 乘法之间的主要区别在于 GPU 包含浮点乘法器,而 TPU 包含 8 位整数乘法器。 TPU 还包含一个统一缓冲区(
**UB**
),用作寄存器的 24 MB SRAM 和一个包含硬接线激活函数的激活单元(
**AU**
)。
...
...
@@ -53,5 +53,5 @@ Imagine a future in which ML acceleration is abundant and develop new kinds of m
# TPU 上的资源
*
Norman P.Jouppi 等人,
*张量处理单元*
的数据中心内性能分析,arXiv 预印本
arXiv:1704.04760(2017)。 在本文中,作者将 TPU 与服务器级的 Intel Haswell CPU 和 NVIDIA k80 GPU 进行了比较。 本文以 TPU 与 CPU 和 K80 GPU 的性能为基准。
*
Norman P.Jouppi 等人,
张量处理单元的数据中心内性能分析,
arXiv:1704.04760(2017)。 在本文中,作者将 TPU 与服务器级的 Intel Haswell CPU 和 NVIDIA k80 GPU 进行了比较。 本文以 TPU 与 CPU 和 K80 GPU 的性能为基准。
*
[
此 Google 博客通过以下简单术语说明了 TPU 及其工作原理
](
https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu
)
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录