v1.2: optimize model arch

76239d11 · breezedeus · b2dcae59 · 76239d11 · 76239d11 · 76239d11
4 changed file
--- a/cnocr/__version__.py
+++ b/cnocr/__version__.py
-__version__ = '1.1.1'
+__version__ = '1.2.0'
--- a/cnocr/fit/fit.py
+++ b/cnocr/fit/fit.py
@@ -23,8 +23,8 @@ def fit(network, data_train, data_val, metrics, args, hp, data_names=None):
    logging.info('hp: %s', hp)

    sym, arg_params, aux_params = _load_model(args)
-    if sym is not None:
-        assert sym.tojson() == network.tojson()
+    # if sym is not None:
+    #     assert sym.tojson() == network.tojson()
    if not os.path.exists(os.path.dirname(args.prefix)):
        os.makedirs(os.path.dirname(args.prefix))


--- a/cnocr/hyperparams/cn_hyperparams.py
+++ b/cnocr/hyperparams/cn_hyperparams.py
@@ -25,15 +25,15 @@ class CnHyperparams(object):

        # LSTM hyper parameters
        self.seq_model_type = 'lstm'
-        self._num_hidden = 100
-        self._num_lstm_layer = 2
+        self._num_hidden = 128
+        self._num_lstm_layer = 1

        # 模型对于图片宽度压缩的比例（模型中的卷积层造成的）；由模型决定，不同模型不一样
        self.seq_len_cmpr_ratio = None
        # 序列长度；由模型决定，不同模型不一样
        self._seq_length = None
        self._num_label = 20
-        self._drop_out = 0.5
+        self._drop_out = 0.3

    def __repr__(self):
        return str(self.__dict__)

--- a/cnocr/symbols/crnn.py
+++ b/cnocr/symbols/crnn.py
@@ -77,7 +77,7 @@ def gen_seq_model(hp):

        def fc_seq_model(data):
            fc = mx.sym.FullyConnected(
-                data, num_hidden=2 * hp.num_hidden, flatten=False, name='seq-fc'
+                data, num_hidden=hp.num_hidden, flatten=False, name='seq-fc'
            )
            net = mx.sym.Activation(data=fc, act_type='relu', name='seq-relu')
            return net