From 0133e2c40797d840e28f4b75b745570981874929 Mon Sep 17 00:00:00 2001
From: Xiaoyao Xi <24541791+xixiaoyao@users.noreply.github.com>
Date: Mon, 4 Nov 2019 17:19:15 +0800
Subject: [PATCH] Update README.md

---
 README.md | 55 +++++++++++++++++++++++++++++++++++++++++++++----------
 1 file changed, 45 insertions(+), 10 deletions(-)

diff --git a/README.md b/README.md
index e88816b..f917d12 100644
--- a/README.md
+++ b/README.md
@@ -588,11 +588,11 @@ reader的输出（生成器每次yield出的数据）包含以下字段：
 
 ```yaml
 token_ids: 一个shape为[batch_size, seq_len]的矩阵，每行是一条样本（文本对），文本1为context，文本2为question，其中的每个元素为文本对中的每个token对应的单词id，文本对使用`[SEP]`所对应的id隔开。
-position_ids": 一个shape为[batch_size, seq_len]的矩阵，每行是一条样本，其中的每个元素为文本中的每个token对应的位置id。
-segment_ids": 一个shape为[batch_size, seq_len]的矩阵，在文本1的token位置，元素取值为0；在文本2的token位置，元素取值为1。用于支持BERT、ERNIE等模型的输入。
-input_mask": 一个shape为[batch_size, seq_len]的矩阵，其中的每个元素为0或1，表示该位置是否是padding词（为1时代表是真实词，为0时代表是填充词）。
-label_ids": 一个shape为[batch_size]的矩阵，其中的每个元素为该样本的类别标签，为0时表示两段文本不匹配，为1时代表构成匹配。
-task_ids": 一个shape为[batch_size, seq_len]的全0矩阵，用于支持ERNIE模型的输入。
+position_ids: 一个shape为[batch_size, seq_len]的矩阵，每行是一条样本，其中的每个元素为文本中的每个token对应的位置id。
+segment_ids: 一个shape为[batch_size, seq_len]的矩阵，在文本1的token位置，元素取值为0；在文本2的token位置，元素取值为1。用于支持BERT、ERNIE等模型的输入。
+input_mask: 一个shape为[batch_size, seq_len]的矩阵，其中的每个元素为0或1，表示该位置是否是padding词（为1时代表是真实词，为0时代表是填充词）。
+task_ids: 一个shape为[batch_size, seq_len]的全0矩阵，用于支持ERNIE模型的输入。
+start_positions: 答案片段
 ```
 
 当处于预测阶段时，reader所yield出的数据不会包含`label_ids`字段。
@@ -674,15 +674,50 @@ sentence_pair_embedding: 一个shape为[batch_size, hidden_size]的matrix, float
 
 ## 附录C：内置任务范式（paradigm）
 
-#### 分类范式
+#### 分类范式：cls
+
+分类范式包含如下的输入对象：
+
+训练阶段：
+```yaml
+sentence_embedding: 一个shape为[batch_size, hidden_size]的matrix, float32类型。每一行代表BERT encoder对当前batch中相应样本的句子向量（sentence embedding）
+label_ids": 一个shape为[batch_size]的矩阵，其中的每个元素为该样本的类别标签。
+```
+
+预测阶段：
+```yaml
+sentence_embedding: 一个shape为[batch_size, hidden_size]的matrix, float32类型。每一行代表BERT encoder对当前batch中相应样本的句子向量（sentence embedding）
+```
+
+在训练阶段，输出loss；预测阶段输出各个类别的预测概率。
+
+#### 匹配范式：match
+
+匹配范式包含如下的输入对象：
+
+训练阶段：
+```yaml
+sentence_pair_embedding: 一个shape为[batch_size, hidden_size]的matrix, float32类型。每一行代表BERT encoder对当前batch中相应样本的句子向量（sentence embedding）
+label_ids: 一个shape为[batch_size]的矩阵，其中的每个元素为该样本的类别标签，为0时表示两段文本不匹配，为1时代表构成匹配
+```
+
+预测阶段：
+```yaml
+sentence_pair_embedding: 一个shape为[batch_size, hidden_size]的matrix, float32类型。每一行代表BERT encoder对当前batch中相应样本的句子向量（sentence embedding）
+```
+
+在训练阶段，输出loss；预测阶段输出匹配与否的概率分布。
+
+#### 机器阅读理解范式：mrc
 
-分类
+机器阅读理解范式包含如下的输入对象：
 
-#### 匹配范式
+训练阶段：
+```yaml
+encoder_outputs: 一个shape为[batch_size, seq_len, hidden_size]的Tensor, float32类型。表示BERT encoder对当前batch中各个样本的encoding结果。
 
-#### 机器阅读理解范式
 
-#### 掩码语言模型范式
+#### 掩码语言模型范式：mlm
 
 ## 附录D：可配置的全局参数列表
 
-- 
GitLab