未验证 提交 c80c2350 编写于 作者: M MissPenguin 提交者: GitHub

Update fleet_train_infer_python.md

上级 15b3cefb
# 多机多卡训练推理测试开发规范
# Linux GPU 多机多卡训练推理测试开发规范
## 目录
- [1.总览](#总览)
- [1.1 背景](#背景)
- [1.2 TIPC自动化测试](#TIPC自动化测试)
......@@ -10,12 +9,12 @@
- [2.2 规范化输出日志](#规范化输出日志)
- [2.3 编写自动化测试代码](#编写自动化测试代码)
<a name="概述"></a>
<a name="总览"></a>
# 1. 总览
<a name="背景"></a>
## 1.1 背景
训推一体认证(TIPC),旨在监控框架代码更新可能导致的**模型训练、预测报错、性能下降**等问题。本文主要介绍TIPC中**多机多卡训练推理链条**的接入规范和监测点,是在[基础链条](./train_infer_python.md)上针对多机多卡训练推理链条的补充说明。
训推一体全流程(TIPC),旨在监控框架代码更新可能导致的**模型训练、预测报错、性能下降**等问题。本文主要介绍TIPC中**Linux GPU 多机多卡训练推理测试链条**的接入规范和监测点,是在[Linux GPU/CPU 基础训练推理测试开发规范](./train_infer_python.md)上针对多机多卡训练推理链条的补充说明。
主要监控的内容有:
......@@ -157,7 +156,7 @@ whole_train_whole_infer: 全量数据训练,全量数据预测,验证模型
- 运行的数据信息,包括节点所处状态,batch_size, ips等
### 2.2.2 接入步骤
该部分参照[基础链条](./train_infer_python.md)接入步骤。
该部分参照[Linux GPU/CPU 基础训练推理测试开发规范](./train_infer_python.md)接入步骤。
<a name="编写自动化测试代码"></a>
## 2.3 编写自动化测试代码
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册