Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDILab开源决策智能平台
DI-engine
提交
835e3c4c
D
DI-engine
项目概览
OpenDILab开源决策智能平台
/
DI-engine
上一次同步 2 年多
通知
60
Star
321
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
1
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DI-engine
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
1
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
835e3c4c
编写于
9月 09, 2021
作者:
N
niuyazhe
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
fix(nyz): fix qmix double_q hidden state bug
上级
e22e5e43
变更
3
隐藏空白更改
内联
并排
Showing
3 changed file
with
4 addition
and
2 deletion
+4
-2
ding/model/template/qmix.py
ding/model/template/qmix.py
+2
-2
ding/policy/qmix.py
ding/policy/qmix.py
+1
-0
dizoo/multiagent_particle/config/cooperative_navigation_qmix_config.py
...ent_particle/config/cooperative_navigation_qmix_config.py
+1
-0
未找到文件。
ding/model/template/qmix.py
浏览文件 @
835e3c4c
...
...
@@ -121,7 +121,7 @@ class QMix(nn.Module):
self
.
mixer
=
mixer
if
self
.
mixer
:
self
.
_mixer
=
Mixer
(
agent_num
,
global_obs_shape
,
embedding_size
)
self
.
_global_state_encoder
=
nn
.
Sequential
()
self
.
_global_state_encoder
=
nn
.
Identity
()
def
forward
(
self
,
data
:
dict
,
single_step
:
bool
=
True
)
->
dict
:
"""
...
...
@@ -428,7 +428,7 @@ class CollaQ(nn.Module):
embedding_size
=
hidden_size_list
[
-
1
]
if
self
.
mixer
:
self
.
_mixer
=
Mixer
(
agent_num
,
global_obs_shape
,
embedding_size
)
self
.
_global_state_encoder
=
nn
.
Sequential
()
self
.
_global_state_encoder
=
nn
.
Identity
()
def
forward
(
self
,
data
:
dict
,
single_step
:
bool
=
True
)
->
dict
:
"""
...
...
ding/policy/qmix.py
浏览文件 @
835e3c4c
...
...
@@ -197,6 +197,7 @@ class QMIXPolicy(Policy):
if
self
.
_cfg
.
learn
.
double_q
:
next_inputs
=
{
'obs'
:
data
[
'next_obs'
]}
self
.
_learn_model
.
reset
(
state
=
data
[
'prev_state'
][
1
])
logit_detach
=
self
.
_learn_model
.
forward
(
next_inputs
,
single_step
=
False
)[
'logit'
].
clone
().
detach
()
next_inputs
=
{
'obs'
:
data
[
'next_obs'
],
'action'
:
logit_detach
.
argmax
(
dim
=-
1
)}
else
:
...
...
dizoo/multiagent_particle/config/cooperative_navigation_qmix_config.py
浏览文件 @
835e3c4c
...
...
@@ -32,6 +32,7 @@ main_config = dict(
learning_rate
=
0.0005
,
target_update_theta
=
0.001
,
discount_factor
=
0.99
,
double_q
=
True
,
),
collect
=
dict
(
n_sample
=
600
,
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录