Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
BaiXuePrincess
PaddleRec
提交
ca62595a
P
PaddleRec
项目概览
BaiXuePrincess
/
PaddleRec
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleRec
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleRec
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
ca62595a
编写于
8月 21, 2020
作者:
Y
yinhaofeng
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
change
上级
bc49b2dc
变更
2
显示空白变更内容
内联
并排
Showing
2 changed file
with
6 addition
and
12 deletion
+6
-12
models/match/dssm/data/preprocess.py
models/match/dssm/data/preprocess.py
+3
-9
models/match/readme.md
models/match/readme.md
+3
-3
未找到文件。
models/match/dssm/data/preprocess.py
浏览文件 @
ca62595a
...
@@ -16,14 +16,9 @@ for line in lines:
...
@@ -16,14 +16,9 @@ for line in lines:
text
=
line
[
0
].
split
(
" "
)
+
line
[
1
].
split
(
" "
)
text
=
line
[
0
].
split
(
" "
)
+
line
[
1
].
split
(
" "
)
for
word
in
text
:
for
word
in
text
:
if
word
in
word_dict
:
if
word
in
word_dict
:
word_dict
[
word
]
=
word_dict
[
word
]
+
1
continue
else
:
else
:
word_dict
[
word
]
=
1
word_dict
[
word
]
=
len
(
word_dict
)
+
1
word_list
=
word_dict
.
items
()
word_list
=
sorted
(
word_dict
.
items
(),
key
=
lambda
item
:
item
[
1
],
reverse
=
True
)
word_list_ids
=
range
(
1
,
len
(
word_list
)
+
1
)
word_dict
=
dict
(
zip
([
x
[
0
]
for
x
in
word_list
],
word_list_ids
))
f
=
open
(
"./zhidao"
,
"r"
)
f
=
open
(
"./zhidao"
,
"r"
)
lines
=
f
.
readlines
()
lines
=
f
.
readlines
()
...
@@ -74,12 +69,11 @@ for query in test_query:
...
@@ -74,12 +69,11 @@ for query in test_query:
if
query
not
in
neg_dict
:
if
query
not
in
neg_dict
:
continue
continue
for
neg
in
neg_dict
[
query
]:
for
neg
in
neg_dict
[
query
]:
test_set
.
append
([
query
,
pos
,
0
])
test_set
.
append
([
query
,
neg
,
0
])
random
.
shuffle
(
test_set
)
random
.
shuffle
(
test_set
)
#训练集中的query,pos,neg转化为词袋
#训练集中的query,pos,neg转化为词袋
f
=
open
(
"train.txt"
,
"w"
)
f
=
open
(
"train.txt"
,
"w"
)
f
=
open
(
"train.txt"
,
"w"
)
for
line
in
train_set
:
for
line
in
train_set
:
query
=
line
[
0
].
strip
().
split
(
" "
)
query
=
line
[
0
].
strip
().
split
(
" "
)
pos
=
line
[
1
].
strip
().
split
(
" "
)
pos
=
line
[
1
].
strip
().
split
(
" "
)
...
...
models/match/readme.md
浏览文件 @
ca62595a
...
@@ -51,8 +51,8 @@ python -m paddlerec.run -m models/contentunderstanding/match-pyramid/config.yaml
...
@@ -51,8 +51,8 @@ python -m paddlerec.run -m models/contentunderstanding/match-pyramid/config.yaml
### 模型效果 (测试)
### 模型效果 (测试)
| 数据集 | 模型 |
auc
| map |
| 数据集 | 模型 |
正逆序比
| map |
| :------------------: | :--------------------: | :---------: |:---------: |
| :------------------: | :--------------------: | :---------: |:---------: |
| zhidao | DSSM |
0.5
5 | -- |
| zhidao | DSSM |
2.2
5 | -- |
| Letor07 | match-pyramid | -- | 0.42 |
| Letor07 | match-pyramid | -- | 0.42 |
| zhidao | multiview-simnet |
0.59
| -- |
| zhidao | multiview-simnet |
1.72
| -- |
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录