README.md 798 字节
Newer Older
F
fengjiayi 已提交
1
# 文本分类
F
fengjiayi 已提交
2
文本分类是机器学习中的一项常见任务,主要目的是根据一条文本的内容,判断该文本所属的类别。在本例子中,我们利用有标注的IMDB语料库训练二分类DNN和CNN模型,完成对语料的简单文本分类。
F
fengjiayi 已提交
3

F
fengjiayi 已提交
4 5 6 7 8
## 实验数据
本例子的实验在IMDB数据集上进行。IMDB数据集包含了来自IMDb(互联网电影数据库)网站的5万条电影影评,并被标注为正面/负面两种评价。数据集被划分为train和test两部分,各2.5万条数据,正负样本的比例基本为1:1。样本直接以英文原文的形式表示。

## DNN模型结构
DNN的模型结构入下图所示:
F
fengjiayi 已提交
9
<p align="center">
F
fengjiayi 已提交
10
<img src="images/dnn_net.png" width = "100%" align="center"/><br/>
F
fengjiayi 已提交
11 12
图1. DNN文本分类模型
</p>