diff --git a/nested_sequence/README.md b/nested_sequence/README.md deleted file mode 100644 index a0990367ef8b03c70c29d285e22ef85907e1d0b7..0000000000000000000000000000000000000000 --- a/nested_sequence/README.md +++ /dev/null @@ -1 +0,0 @@ -TBD diff --git a/ntm_addressing_mechanism/README.md b/ntm_addressing_mechanism/README.md deleted file mode 100644 index a0990367ef8b03c70c29d285e22ef85907e1d0b7..0000000000000000000000000000000000000000 --- a/ntm_addressing_mechanism/README.md +++ /dev/null @@ -1 +0,0 @@ -TBD diff --git a/regression/README.md b/regression/README.md deleted file mode 100644 index a0990367ef8b03c70c29d285e22ef85907e1d0b7..0000000000000000000000000000000000000000 --- a/regression/README.md +++ /dev/null @@ -1 +0,0 @@ -TBD diff --git a/scheduled_sampling/README.md b/scheduled_sampling/README.md index 9af4387e125a969e68704b58ea8c600e847dbf7f..644c1b960cb7a153a69b4c4f282008372194943c 100644 --- a/scheduled_sampling/README.md +++ b/scheduled_sampling/README.md @@ -4,7 +4,7 @@ 序列生成任务的生成目标是在给定源输入的条件下,最大化目标序列的概率。训练时该模型将目标序列中的真实元素作为解码器每一步的输入,然后最大化下一个元素的概率。生成时上一步解码得到的元素被用作当前的输入,然后生成下一个元素。可见这种情况下训练阶段和生成阶段的解码器输入数据的概率分布并不一致。 -Scheduled Sampling\[[1](#参考文献)\]是一种解决训练和生成时输入数据分布不一致的方法。在训练早期该方法主要使用目标序列中的真实元素作为解码器输入,可以将模型从随机初始化的状态快速引导至一个合理的状态。随着训练的进行,该方法会逐渐更多地使用生成的元素作为解码器输入,以解决数据分布不一致的问题。 +Scheduled Sampling \[[1](#参考文献)\]是一种解决训练和生成时输入数据分布不一致的方法。在训练早期该方法主要使用目标序列中的真实元素作为解码器输入,可以将模型从随机初始化的状态快速引导至一个合理的状态。随着训练的进行,该方法会逐渐更多地使用生成的元素作为解码器输入,以解决数据分布不一致的问题。 标准的序列到序列模型中,如果序列前面生成了错误的元素,后面的输入状态将会收到影响,而该误差会随着生成过程不断向后累积。Scheduled Sampling以一定概率将生成的元素作为解码器输入,这样即使前面生成错误,其训练目标仍然是最大化真实目标序列的概率,模型会朝着正确的方向进行训练。因此这种方式增加了模型的容错能力。 @@ -24,14 +24,14 @@ Scheduled Sampling主要应用在序列到序列模型的训练阶段,而生 图1给出了这三种方式的衰减曲线,

-
+
图1. 线性衰减、指数衰减和反向Sigmoid衰减的衰减曲线

如图2所示,在解码器的$t$时刻Scheduled Sampling以概率$\epsilon_i$使用上一时刻的真实元素$y_{t-1}$作为解码器输入,以概率$1-\epsilon_i$使用上一时刻生成的元素$g_{t-1}$作为解码器输入。从图1可知随着$i$的增大$\epsilon_i$会不断减小,解码器将不断倾向于使用生成的元素作为输入,训练阶段和生成阶段的数据分布将变得越来越一致。

-
+
图2. Scheduled Sampling选择不同元素作为解码器输入示意图

diff --git a/scheduled_sampling/img/Scheduled_Sampling.jpg b/scheduled_sampling/images/Scheduled_Sampling.jpg similarity index 100% rename from scheduled_sampling/img/Scheduled_Sampling.jpg rename to scheduled_sampling/images/Scheduled_Sampling.jpg diff --git a/scheduled_sampling/img/decay.jpg b/scheduled_sampling/images/decay.jpg similarity index 100% rename from scheduled_sampling/img/decay.jpg rename to scheduled_sampling/images/decay.jpg diff --git a/scheduled_sampling/index.html b/scheduled_sampling/index.html new file mode 100644 index 0000000000000000000000000000000000000000..224f598126cfbe477058a7af45a30dd9d4c8764f --- /dev/null +++ b/scheduled_sampling/index.html @@ -0,0 +1,277 @@ + + + + + + + + + + + + + + + + + +
+
+ + + + + + +