ml_dataset_cn.md 3.1 KB
Newer Older
1
```eval_rst
D
dayhaha 已提交
2
.. _demo_ml_dataset:
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105

```

# MovieLens数据集

[MovieLens 数据集](http://grouplens.org/datasets/movielens/)由GroupLens Research实验室搜集整理。
该数据集包含一些用户信息、电影信息以及电影评分\[1-5\]。根据数据量规模,该数据及有很多不同的版本。
我们用[MovieLens 百万数据集](http://files.grouplens.org/datasets/movielens/ml-1m.zip)作为示例数据
集,其中包含6,000位用户对4,000部电影的1,000,000条评价。该数据集于2003年2月发布。

## 数据集特征

[ml-1m 数据集](http://files.grouplens.org/datasets/movielens/ml-1m.zip)中有许多的特征。在[ml-1m 数据集]
(http://files.grouplens.org/datasets/movielens/ml-1m.zip)中的这些数据文件(含有".dat"的后缀)实际上是CSV文件,
分隔符为"::"。以下我们翻译数据集网站中README文件的描述:

### 评分文件描述(ratings.dat)


所有的评分数据都包含在"ratings.dat"文件中,遵循如下的格式:

用户ID::电影ID::评分::时间戳

- 用户ID范围从1到6040
- 电影ID范围从1到3952
- 评分被调整为5星的规模(只允许整数的星级)
- 时间戳表示为从1970-01-01(UTC)来的秒数,与time(2)的返回值一致
- 每位用户至少有20条评分

### 用户文件描述(users.dat)

所有的用户信息都包含在"users.dat"文件中,遵循如下的格式:

用户ID::性别::年龄::职业::邮编

所有的人口统计学信息由用户自愿提供,没有进行正确性的检查。只有含有人
口统计学信息的用户才被包含在数据集中。

- 性别,用"M"表示男性,"F"表示女性
- 年龄从下列列表范围中选取:

	*   1:	"18岁以下"
	*  18:	"18-24岁"
	*  25:	"25-34岁"
	*  35:	"35-44岁"
	*  45:	"45-49岁"
	*  50:	"50-55岁"
	*  56:	"56+"

- 职业从下面所列中选择:

	*   0:  "其他"或不确定
	*   1:  "学术/教育工作者"
	*   2:  "艺术家"
	*   3:  "文书工作/管理员"
	*   4:  "大学生/研究生"
	*   5:  "客户服务"
	*   6:  "医生/医疗保健"
	*   7:  "行政工作/管理人员"
	*   8:  "农民"
	*   9:  "操持家务者"
	*  10:  "高中毕业生"
	*  11:  "律师"
	*  12:  "程序员"
	*  13:  "退休人员"
	*  14:  "销售/市场"
	*  15:  "科学家"
	*  16:  "自由职业者"
	*  17:  "技术员/工程师"
	*  18:  "推销员/手工艺者"
	*  19:  "无业人士"
	*  20:  "作家"

### 电影文件描述(movies.dat)

所有的电影信息都包含在"movies.dat"文件中,遵循如下的格式:

电影ID::电影名称::电影类型

- 电影名称(包括发行时间)与IMDB网站提供的一致
- 电影类型如符合多种用管道符号|分割,选自下列类型:

	*	动作片
	*	冒险片
	*	动画片
	*	儿童片
	*	喜剧片
	*	犯罪片
	*	纪录片
	*	戏剧
	*	奇幻片
	*	黑色电影
	*	恐怖片
	*	音乐剧
	*	悬疑片
	*	浪漫片
	*	科幻片
	*	惊险电影
	*	战争片
	*	西部片

- 由于意外的副本记录和测试记录,有些电影ID可能与实际电影不相符合
- 电影大部分是手工输入数据,因此可能会有一些错误和不一致发生