api_train_v2.py 3.6 KB
Newer Older
Y
Yu Yang 已提交
1 2 3 4
import paddle.v2 as paddle


def main():
Y
Yu Yang 已提交
5
    paddle.init(use_gpu=False, trainer_count=3)
Y
Yu Yang 已提交
6
    movie_title_dict = paddle.dataset.movielens.get_movie_title_dict()
Y
Refine  
Yu Yang 已提交
7 8 9 10 11
    uid = paddle.layer.data(
        name='user_id',
        type=paddle.data_type.integer_value(
            paddle.dataset.movielens.max_user_id() + 1))
    usr_emb = paddle.layer.embedding(input=uid, size=32)
Y
Yu Yang 已提交
12

Y
Refine  
Yu Yang 已提交
13 14 15 16 17 18 19 20
    usr_gender_id = paddle.layer.data(
        name='gender_id', type=paddle.data_type.integer_value(2))
    usr_gender_emb = paddle.layer.embedding(input=usr_gender_id, size=16)

    usr_age_id = paddle.layer.data(
        name='age_id',
        type=paddle.data_type.integer_value(
            len(paddle.dataset.movielens.age_table)))
Y
Yu Yang 已提交
21
    usr_age_emb = paddle.layer.embedding(input=usr_age_id, size=16)
Y
Refine  
Yu Yang 已提交
22

Y
Yu Yang 已提交
23 24 25 26 27 28 29 30 31
    usr_job_id = paddle.layer.data(
        name='job_id',
        type=paddle.data_type.integer_value(paddle.dataset.movielens.max_job_id(
        ) + 1))

    usr_job_emb = paddle.layer.embedding(input=usr_job_id, size=16)

    usr_combined_features = paddle.layer.fc(
        input=[usr_emb, usr_gender_emb, usr_age_emb, usr_job_emb],
Y
Refine  
Yu Yang 已提交
32 33 34 35 36 37 38 39 40
        size=200,
        act=paddle.activation.Tanh())

    mov_id = paddle.layer.data(
        name='movie_id',
        type=paddle.data_type.integer_value(
            paddle.dataset.movielens.max_movie_id() + 1))
    mov_emb = paddle.layer.embedding(input=mov_id, size=32)

Y
Yu Yang 已提交
41 42 43 44 45 46 47
    mov_categories = paddle.layer.data(
        name='category_id',
        type=paddle.data_type.sparse_binary_vector(
            len(paddle.dataset.movielens.movie_categories())))

    mov_categories_hidden = paddle.layer.fc(input=mov_categories, size=32)

Y
Refine  
Yu Yang 已提交
48 49
    mov_title_id = paddle.layer.data(
        name='movie_title',
Y
Yu Yang 已提交
50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
        type=paddle.data_type.integer_value_sequence(len(movie_title_dict)))
    mov_title_emb = paddle.layer.embedding(input=mov_title_id, size=32)
    mov_title_conv = paddle.networks.sequence_conv_pool(
        input=mov_title_emb, hidden_size=32, context_len=3)

    mov_combined_features = paddle.layer.fc(
        input=[mov_emb, mov_categories_hidden, mov_title_conv],
        size=200,
        act=paddle.activation.Tanh())

    inference = paddle.layer.cos_sim(
        a=usr_combined_features, b=mov_combined_features, size=1, scale=5)
    cost = paddle.layer.regression_cost(
        input=inference,
        label=paddle.layer.data(
            name='score', type=paddle.data_type.dense_vector(1)))

    parameters = paddle.parameters.create(cost)

    trainer = paddle.trainer.SGD(cost=cost,
                                 parameters=parameters,
                                 update_equation=paddle.optimizer.Adam(
                                     learning_rate=1e-4))
Y
Stash  
Yu Yang 已提交
73 74 75 76 77 78 79 80 81 82
    reader_dict = {
        'user_id': 0,
        'gender_id': 1,
        'age_id': 2,
        'job_id': 3,
        'movie_id': 4,
        'category_id': 5,
        'movie_title': 6,
        'score': 7
    }
Y
Yu Yang 已提交
83 84 85 86 87 88

    def event_handler(event):
        if isinstance(event, paddle.event.EndIteration):
            if event.batch_id % 100 == 0:
                print "Pass %d Batch %d Cost %.2f" % (
                    event.pass_id, event.batch_id, event.cost)
Y
Stash  
Yu Yang 已提交
89 90 91 92
        elif isinstance(event, paddle.event.EndPass):
            result = trainer.test(reader=paddle.reader.batched(
                paddle.dataset.movielens.test(), batch_size=256))
            print result.cost
Y
Yu Yang 已提交
93 94 95

    trainer.train(
        reader=paddle.reader.batched(
Y
Stash  
Yu Yang 已提交
96 97 98
            paddle.reader.shuffle(
                paddle.dataset.movielens.train(), buf_size=8192),
            batch_size=256),
Y
Yu Yang 已提交
99
        event_handler=event_handler,
Y
Stash  
Yu Yang 已提交
100 101
        reader_dict=reader_dict,
        num_passes=10)
Y
Yu Yang 已提交
102 103 104 105


if __name__ == '__main__':
    main()