Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
ade34bb6
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
ade34bb6
编写于
6月 20, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add buy gpu
上级
93411cd2
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
22 addition
and
26 deletion
+22
-26
chapter_appendix/buy-gpu.md
chapter_appendix/buy-gpu.md
+22
-26
未找到文件。
chapter_appendix/buy-gpu.md
浏览文件 @
ade34bb6
# GPU购买指南
深度学习训练通常需要大量的计算资源。GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说,GPU更便宜且计算更加密集。一方面,相同计算能力的GPU的价格一般是CPU价格的十分之一。另一方面,一台服务器通常可以搭载8块或者16块GPU。因此,GPU数量可以看作是衡量深度学习计算能力的一个标准。
深度学习训练通常需要大量的计算资源。GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说,GPU更便宜且计算更加密集。一方面,相同计算能力的GPU的价格一般是CPU价格的十分之一。另一方面,一台服务器通常可以搭载8块或者16块GPU。因此,GPU数量可以看作是衡量
一台服务器的
深度学习计算能力的一个标准。
本节我们简要介绍GPU的购买须知。这里主要针对个人用户购买一两台自用的GPU服务器。而不是针对需要购买
-
100+台机器的大公司用户。请咨询专业数据中心维护人员,通常你们会考虑Nvidia Tesla P100或者V100。你可以完全跳过此节。
-
10+台机器的实验室和中小公司用户:不缺钱可以上Nvidia DGX-1,不然可以考虑购买如Supermicro之类性价比较高的服务器。此节的一些内容可以做为参考。
本节主要针对购买一两台自用GPU服务器的个人用户介绍一些GPU购买须知。如果你是拥有100台机器以上的大公司用户,通常可以考虑Nvidia Tesla P100或者V100,详情请咨询数据中心维护人员。如果你是拥有10到100台机器的实验室和中小公司用户,如果预算充足,可以考虑Nvidia DGX-1,否则可以考虑购买如Supermicro之类的性价比较高的服务器。
## 选择GPU
目前独立GPU主要有AMD和Nvidia两家厂商。其中Nvidia
由于深度学习布局较早,深度学习框架支持更好,因此目前主要会选择Nvidia的卡
。
目前独立GPU主要有AMD和Nvidia两家厂商。其中Nvidia
在深度学习布局较早,对深度学习框架支持更好。因此,目前大家主要会选择Nvidia的GPU
。
Nvidia
卡有面向个人用户(例如GTX系列)和企业用户(例如Tesla系列)两种。企业用户卡通常使用被动散热和增加了内存校验从而更加适合数据中心。但计算能力上两者相当。企业卡通常要贵上10倍,因此个人用户通常选用GTX系列
。
Nvidia
有面向个人用户(例如GTX系列)和企业用户(例如Tesla系列)的两类GPU。这两类GPU的计算能力相当。然而,面向企业用户的GPU通常使用被动散热并增加了内存校验,从而更适合数据中心,并通常要比面向个人用户的GPU贵上10倍。因此,个人用户通常选用GTX系列的GPU
。
Nvidia一般每一两年
会更新一次大版本,例如目前最新的是1000系列。每个系列里面会有数个不同型号,
对应不同的性能。
Nvidia一般每一两年
发布一次新版本的GPU,例如最近的GTX 1000系列。每个系列中会有数个不同的型号,分别
对应不同的性能。
GPU的性能主要由
下面三个主要
参数构成:
GPU的性能主要由
以下三个
参数构成:
1.
计算能力。通常我们关心的是32位浮点计算能力。当然,
对于高玩来说也可以考虑16位浮点用来训练,8位整数来
预测。
2.
内存大小。
神经网络越深,或者训练时批量大小越大
,所需要的GPU内存就越多。
3.
内存带宽。
内存带宽要足够才能发挥出所有
计算能力。
1.
计算能力。通常我们关心的是32位浮点计算能力。当然,
特殊情况下也可考虑其他的计算能力,例如用16位浮点训练,用8位整数
预测。
2.
内存大小。
当模型越大,或者训练时的批量越大时
,所需要的GPU内存就越多。
3.
内存带宽。
只有当内存带宽足够时才能充分发挥
计算能力。
对于大部分用户来说,只要考虑计算能力就
行了。内存不要太小就好,例如不要小于4GB。如果显卡同时要用来显示图形界面,那么推荐6G内存。内存带宽可以让厂家来纠结
。
对于大部分用户来说,只要考虑计算能力就
可以了。我们建议GPU内存尽量不小于4GB。但如果GPU要同时显示图形界面,那么推荐的内存大小至少为6GB。至于内存带宽,通常厂家已在设计时考虑
。
下图画了900和1000系列里各个卡的32位浮点计算能力和价格的对比(价格是wikipedia的推荐价格,真实价格通常会有浮动)
。
图11.19描绘了GTX 900和1000系列里各个型号的32位浮点计算能力和价格的对比。其中价格为Wikipedia的建议价格
。
![
浮点计算能力和价格的对比。
](
../img/gtx.png
)
我们可以读出两点信息:
我们可以
从图11.19中
读出两点信息:
1.
在同一个系列里面,
通常价格和性能成正比
2.
1000系列性价比900高
2倍左右。
1.
在同一个系列里面,
价格和性能大体上成正比。
2.
GTX 1000系列比900系列在性价比上高出
2倍左右。
如果大家继续比较GTX
前面几代,也发现规律是类似的。根据这个我们推荐
如果大家继续比较GTX
较早的系列,也可以发现类似的规律。据此,我们推荐大家在能力范围内,尽可能买较新的GPU。如果预算充足,直接买最新的GPU。如果预算相对有限,购买入门的1050TI也是个不错的选择。
1.
买新不买旧,因为目前看来GPU性能还是在快速迭代,贬值较快。
2.
量力购买。不缺钱直接上最好的,但入门的1050TI也不错。
## 整机配置
如果主要是用GPU来做计算,或者说主要是做深度学习训练,不需要购买高端的CPU。可以将主要预算花费在GPU上。所以整机配置可以参考网上推荐的中高档
就好。
通常,我们主要用GPU做深度学习训练。因此,不需要购买高端的CPU。至于整机配置,尽量参考网上推荐的中高档的配置
就好。
不过
由于GPU的功耗,散热和体积,需要一些额外考虑
。
不过
,考虑到GPU的功耗、散热和体积,我们在整机配置上也需要考虑以下三个额外因素
。
-
机箱体积。GPU尺寸较大,通常不考虑太小的机箱。而且机箱自带的风扇要好。(下图里我们曾尝试在一个中等机箱里塞满4卡导致散热不好烧了2块GPU。)
-
电源。购买GPU时需要查下GPU的功耗,50w到300w不等。因此买电源时需要功率足够的。(我们倒是一开始就考虑了这个,但忘了不过载机房供电。下面是5台机器满负荷运行时烧掉了一个30A的电源接口。)
-
主板的PCIe卡槽。推荐使用PCIe 3.0 16x来保证足够的GPU到主内存带宽。如果是多卡的话,要仔细看主板说明,保证多卡一起使用时仍然是16x带宽。(有些主板插4卡时会降到8x甚至4x)
1.
机箱体积。GPU尺寸较大,通常考虑较大且自带风扇的机箱。
2.
电源。购买GPU时需要查一下GPU的功耗,例如50W到300W不等。购买电源要确保功率足够,并不会过载机房的供电。
3.
主板的PCIe卡槽。推荐使用PCIe 3.0 16x来保证充足的GPU到主内存的带宽。如果搭载多块GPU,要仔细阅读主板说明,以确保多块GPU一起使用时仍然是16x带宽。注意,有些主板搭载4块GPU时会降到8x甚至4x带宽。
## 小结
*
在能力范围内,尽可能买较新的GPU。
*
在预算范围之内,尽可能买较新的GPU。
*
整机配置需要考虑到GPU的功耗、散热和体积。
## 练习
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录