NIPS2018: AI for Prosthetics Challenge的part3中的ensemble_num的含义?
已关闭
NIPS2018: AI for Prosthetics Challenge的part3中的ensemble_num的含义?
Created by: janyChan
请问,Winning Solution for NIPS2018: AI for Prosthetics Challenge的Part3: Training in random velocity environment for round2 evaluation中ensemble_num指的是什么?,是类似A3C的思想吗?还是同时并行训练ensemble_num个模型,test的时候再分别检测各个模型的效果,从中选出一个好的?
Created by: zenghsh3
- ensemble_num是指同时训练K个模型(K个Actor和K个Critic),不过K个模型会共享底部参数(Multi-head方式);
- 预测的时候K个Critic会对K个Actor的输出分别打分,每个Critic会分别归一化它们自己的打分,然后每个Actor的输出最终得分为归一化后的Critic打分之和,我们会选择最终得分最高的Actor输出。这块逻辑可以参考源码:https://github.com/PaddlePaddle/PARL/blob/348db1fbaf6a4fe8c1b0922b303d8b20a8213df7/examples/NeurIPS2018-AI-for-Prosthetics-Challenge/multi_head_ddpg.py#L43
Created by: janyChan
def define_ensemble_predict(self, obs);函数我看到在build_program中调用过,但build_program没看到在哪使用? https://github.com/PaddlePaddle/PARL/blob/cdb50056e57ed675d07f2e435085d63d3d22fa3e/examples/NeurIPS2018-AI-for-Prosthetics-Challenge/opensim_agent.py#L79
Created by: TomorrowIsAnOtherDay
https://github.com/PaddlePaddle/PARL/blob/348db1fbaf6a4fe8c1b0922b303d8b20a8213df7/parl/framework/agent_base.py#L46 是的,agent 构建的时候自动调用这个函数。
看来这个函数的调用方式不大容易定位,我们会update文档来说明这个问题