Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
飞 羽
代码片段(1)
提交
37d51ffd
代
代码片段(1)
项目概览
飞 羽
/
代码片段(1)
与 Fork 源项目一致
Fork自
inscode / Python
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
代
代码片段(1)
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
37d51ffd
编写于
12月 03, 2023
作者:
飞 羽
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
生产代码片段
上级
2eebcf6c
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
77 addition
and
1 deletion
+77
-1
main.py
main.py
+77
-1
未找到文件。
main.py
浏览文件 @
37d51ffd
print
(
'欢迎来到 InsCode'
)
\ No newline at end of file
import
torch
import
torch.nn
as
nn
import
torch.optim
as
optim
from
torch.utils.data
import
Dataset
,
DataLoader
# 准备数据集
data
=
[
'hello world'
,
'goodbye world'
,
'hello pytorch'
,
'goodbye pytorch'
]
tokenizer
=
{
'<PAD>'
:
0
,
'<UNK>'
:
1
,
'hello'
:
2
,
'world'
:
3
,
'goodbye'
:
4
,
'pytorch'
:
5
}
max_len
=
3
# 数据预处理
class
MyDataset
(
Dataset
):
def
__init__
(
self
,
data
,
tokenizer
,
max_len
):
self
.
data
=
data
self
.
tokenizer
=
tokenizer
self
.
max_len
=
max_len
def
__len__
(
self
):
return
len
(
self
.
data
)
def
__getitem__
(
self
,
idx
):
tokens
=
self
.
data
[
idx
].
split
()
tokens
=
[
self
.
tokenizer
.
get
(
token
,
self
.
tokenizer
[
'<UNK>'
])
for
token
in
tokens
]
if
len
(
tokens
)
<
self
.
max_len
:
tokens
+=
[
self
.
tokenizer
[
'<PAD>'
]]
*
(
self
.
max_len
-
len
(
tokens
))
else
:
tokens
=
tokens
[:
self
.
max_len
]
return
torch
.
tensor
(
tokens
)
dataset
=
MyDataset
(
data
,
tokenizer
,
max_len
)
dataloader
=
DataLoader
(
dataset
,
batch_size
=
2
,
shuffle
=
True
)
# 构建模型
class
MyModel
(
nn
.
Module
):
def
__init__
(
self
,
vocab_size
,
embedding_dim
,
hidden_dim
):
super
(
MyModel
,
self
).
__init__
()
self
.
embedding
=
nn
.
Embedding
(
vocab_size
,
embedding_dim
)
self
.
lstm
=
nn
.
LSTM
(
embedding_dim
,
hidden_dim
,
batch_first
=
True
)
self
.
fc
=
nn
.
Linear
(
hidden_dim
,
vocab_size
)
def
forward
(
self
,
x
):
x
=
self
.
embedding
(
x
)
out
,
_
=
self
.
lstm
(
x
)
out
=
self
.
fc
(
out
)
return
out
model
=
MyModel
(
len
(
tokenizer
),
10
,
20
)
# 训练模型
criterion
=
nn
.
CrossEntropyLoss
()
optimizer
=
optim
.
Adam
(
model
.
parameters
(),
lr
=
0.01
)
for
epoch
in
range
(
10
):
for
batch
in
dataloader
:
optimizer
.
zero_grad
()
output
=
model
(
batch
)
loss
=
criterion
(
output
.
view
(
-
1
,
len
(
tokenizer
)),
batch
.
view
(
-
1
))
loss
.
backward
()
optimizer
.
step
()
print
(
'Epoch: {}, Loss: {:.4f}'
.
format
(
epoch
+
1
,
loss
.
item
()))
# 测试模型
test_data
=
[
'hello'
,
'goodbye'
,
'pytorch'
]
test_tokens
=
[[
tokenizer
.
get
(
token
,
tokenizer
[
'<UNK>'
])
for
token
in
data
.
split
()]
for
data
in
test_data
]
test_tokens
=
[
torch
.
tensor
(
tokens
)
for
tokens
in
test_tokens
]
test_output
=
model
(
torch
.
stack
(
test_tokens
))
test_pred
=
torch
.
argmax
(
test_output
,
dim
=-
1
)
for
i
,
data
in
enumerate
(
test_data
):
print
(
'{} -> {}'
.
format
(
data
,
' '
.
join
([
k
for
k
,
v
in
tokenizer
.
items
()
if
v
==
test_pred
[
i
].
item
()])))
# 应用模型
input_data
=
'hello'
input_tokens
=
[
tokenizer
.
get
(
token
,
tokenizer
[
'<UNK>'
])
for
token
in
input_data
.
split
()]
input_tokens
=
torch
.
tensor
(
input_tokens
).
unsqueeze
(
0
)
output
=
model
(
input_tokens
)
pred
=
torch
.
argmax
(
output
,
dim
=-
1
)
print
(
' '
.
join
([
k
for
k
,
v
in
tokenizer
.
items
()
if
v
==
pred
.
item
()]))
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录