Enable model ce for text_classification

9d26b01a · Yibing Liu · 68e73327 · 9d26b01a · 9d26b01a · 9d26b01a
4 changed file
--- a/fluid/text_classification/.run_ce.sh
+++ b/fluid/text_classification/.run_ce.sh
+###!/bin/bash
+####This file is only used for continuous evaluation.
+export CE_MODE_X=1
+python train.py cnn  | python _ce.py
--- a/fluid/text_classification/_ce.py
+++ b/fluid/text_classification/_ce.py
+####this file is only used for continuous evaluation test!
+import os
+import sys
+sys.path.append(os.environ['ceroot'])
+from kpi import CostKpi, DurationKpi, AccKpi
+#### NOTE kpi.py should shared in models in some way!!!!
+train_acc_kpi = AccKpi('train_acc', 0.005, actived=True)
+train_cost_kpi = CostKpi('train_cost', 0.005, actived=True)
+train_duration_kpi = DurationKpi('train_duration', 0.06, actived=True)
+tracking_kpis = [
+    train_acc_kpi,
+    train_cost_kpi,
+    train_duration_kpi,
+]
+def parse_log(log):
+    for line in log.split('\n'):
+        fs = line.strip().split('\t')
+        print(fs)
+        if len(fs) == 3 and fs[0] == 'kpis':
+            print("-----%s" % fs)
+            kpi_name = fs[1]
+            kpi_value = float(fs[2])
+            yield kpi_name, kpi_value
+def log_to_ce(log):
+    kpi_tracker = {}
+    for kpi in tracking_kpis:
+        kpi_tracker[kpi.name] = kpi
+    for (kpi_name, kpi_value) in parse_log(log):
+        print(kpi_name, kpi_value)
+        kpi_tracker[kpi_name].add_record(kpi_value)
+        kpi_tracker[kpi_name].persist()
+if __name__ == '__main__':
+    log = sys.stdin.read()
+    print("*****")
+    print log
+    print("****")
+    log_to_ce(log)
--- a/fluid/text_classification/train.py
+++ b/fluid/text_classification/train.py
+import os
 import sys
 import time
 import unittest
@@ -53,8 +54,12 @@ def train(train_reader,
    exe = fluid.Executor(place)
    feeder = fluid.DataFeeder(feed_list=[data, label], place=place)
+    # For internal continuous evaluation
+    if 'CE_MODE_X' in os.environ:
+        fluid.default_startup_program().random_seed = 110
    exe.run(fluid.default_startup_program())
    for pass_id in xrange(pass_num):
+        pass_start = time.time()
        data_size, data_count, total_acc, total_cost = 0, 0, 0.0, 0.0
        for data in train_reader():
            avg_cost_np, avg_acc_np = exe.run(fluid.default_main_program(),
@@ -73,6 +78,13 @@ def train(train_reader,
        epoch_model = save_dirname + "/" + "epoch" + str(pass_id)
        fluid.io.save_inference_model(epoch_model, ["words", "label"], acc, exe)
+        pass_end = time.time()
+        # For internal continuous evaluation
+        if 'CE_MODE_X' in os.environ:
+            print("kpis	train_acc	%f" % avg_acc)
+            print("kpis	train_cost	%f" % avg_cost)
+            print("kpis	train_duration	%f" % (pass_end - pass_start))
 def train_net():
    word_dict, train_reader, test_reader = utils.prepare_data(

--- a/fluid/text_classification/utils.py
+++ b/fluid/text_classification/utils.py
+import os
 import sys
 import time
 import numpy as np
@@ -64,15 +65,22 @@ def prepare_data(data_type="imdb",
            raise RuntimeError("No such dataset")
    if data_type == "imdb":
-        train_reader = paddle.batch(
+        if 'CE_MODE_X' in os.environ:
-            paddle.reader.shuffle(
+            train_reader = paddle.batch(
-                paddle.dataset.imdb.train(word_dict), buf_size=buf_size),
+                paddle.dataset.imdb.train(word_dict), batch_size=batch_size)
-            batch_size=batch_size)
-        test_reader = paddle.batch(
+            test_reader = paddle.batch(
-            paddle.reader.shuffle(
+                paddle.dataset.imdb.test(word_dict), batch_size=batch_size)
-                paddle.dataset.imdb.test(word_dict), buf_size=buf_size),
+        else:
-            batch_size=batch_size)
+            train_reader = paddle.batch(
+                paddle.reader.shuffle(
+                    paddle.dataset.imdb.train(word_dict), buf_size=buf_size),
+                batch_size=batch_size)
+            test_reader = paddle.batch(
+                paddle.reader.shuffle(
+                    paddle.dataset.imdb.test(word_dict), buf_size=buf_size),
+                batch_size=batch_size)
    else:
        raise RuntimeError("no such dataset")