Merge pull request #2288 from emailweixu/fix_v2_api

Fix V2 API

Merge pull request #2288 from emailweixu/fix_v2_api
Fix V2 API
0ef86cbd · emailweixu · GitHub · 94d83fcd · 97c4d23f · 0ef86cbd
13 changed file
--- a/paddle/parameter/Parameter.h
+++ b/paddle/parameter/Parameter.h
@@ -324,6 +324,7 @@ protected:
  std::vector<std::shared_ptr<IParameterUpdaterHook>> updaterHooks_;
 public:
+  void setSharedCount(int cnt) { sharedCount_ = cnt; }
  int getSharedCount() { return sharedCount_; }
  bool isSparse() { return config_.is_sparse(); }

--- a/python/paddle/trainer/config_parser.py
+++ b/python/paddle/trainer/config_parser.py
@@ -3371,7 +3371,7 @@ def make_importer(config_dir, config_args):
    return Import
-settings = dict(
+DEFAULT_SETTING = dict(
    batch_size=None,
    mini_batch_size=None,
    algorithm='async_sgd',
@@ -3404,6 +3404,8 @@ settings = dict(
    adam_beta2=0.999,
    adam_epsilon=1e-8, )
+settings = copy.deepcopy(DEFAULT_SETTING)
 settings_deprecated = dict(usage_ratio=1., )
 trainer_settings = dict(
@@ -3544,10 +3546,8 @@ def update_g_config():
    return g_config
-def parse_config(trainer_config, config_arg_str):
+def begin_parse(config_arg_str=''):
    '''
-    @param trainer_config: can be a string of config file name or a function name
-    with config logic
    @param config_arg_str: a string of the form var1=val1,var2=val2. It will be
    passed to config script as a dictionary CONFIG_ARGS
    '''
@@ -3555,12 +3555,23 @@ def parse_config(trainer_config, config_arg_str):
    for hook in _parse_config_hooks:
        hook()
-    config_args = {}
    logger.findCaller = find_caller
    logger.fatal = my_fatal
    g_config.model_config.type = "nn"
+    global g_current_submodel, g_root_submodel
+    g_root_submodel = g_config.model_config.sub_models.add()
+    g_root_submodel.name = 'root'
+    g_root_submodel.is_recurrent_layer_group = False
+    g_current_submodel = g_root_submodel
+def parse_config(trainer_config, config_arg_str):
+    begin_parse(config_arg_str)
+    config_args = {}
    if config_arg_str:
        config_args = dict([f.split('=') for f in config_arg_str.split(',')])
@@ -3573,14 +3584,6 @@ def parse_config(trainer_config, config_arg_str):
        extension_module = importlib(extension_module_name)
        g_extended_config_funcs = extension_module.get_config_funcs(g_config)
-    g_config.model_config.type = 'nn'
-    global g_current_submodel, g_root_submodel
-    g_root_submodel = g_config.model_config.sub_models.add()
-    g_root_submodel.name = 'root'
-    g_root_submodel.is_recurrent_layer_group = False
-    g_current_submodel = g_root_submodel
    if hasattr(trainer_config, '__call__'):
        trainer_config.func_globals.update(
            make_config_environment("", config_args))

--- a/python/paddle/trainer_config_helpers/config_parser_utils.py
+++ b/python/paddle/trainer_config_helpers/config_parser_utils.py
@@ -12,7 +12,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
+import copy
 import paddle.trainer.config_parser as config_parser
+from paddle.proto.TrainerConfig_pb2 import OptimizationConfig
 '''
 This file is a wrapper of formal config_parser. The main idea of this file is to
 separete different config logic into different function, such as network configuration
@@ -20,7 +22,8 @@ separete different config logic into different function, such as network configu
 '''
 __all__ = [
-    "parse_trainer_config", "parse_network_config", "parse_optimizer_config"
+    "parse_trainer_config", "parse_network_config", "parse_optimizer_config",
+    "reset_parser"
 ]
@@ -34,5 +37,15 @@ def parse_network_config(network_conf, config_arg_str=''):
 def parse_optimizer_config(optimizer_conf, config_arg_str=''):
-    config = config_parser.parse_config(optimizer_conf, config_arg_str)
+    config_parser.settings = copy.deepcopy(config_parser.DEFAULT_SETTING)
-    return config.opt_config
+    optimizer_conf()
+    opt_config = OptimizationConfig()
+    for k, v in config_parser.settings.iteritems():
+        if v is None:
+            continue
+        opt_config.__setattr__(k, v)
+    return opt_config
+def reset_parser():
+    config_parser.begin_parse()
--- a/python/paddle/trainer_config_helpers/layers.py
+++ b/python/paddle/trainer_config_helpers/layers.py
@@ -287,6 +287,7 @@ class LayerOutput(object):
        assert size is not None
        assert LayerType.is_layer_type(layer_type)
        self.name = name
+        self.full_name = MakeLayerNameInSubmodel(name)
        self.layer_type = layer_type
        if parents is not None and type(parents) != list:
            parents = [parents]
@@ -3491,6 +3492,11 @@ def recurrent_group(step,
    RecurrentLayerGroupEnd(name=name)
+    for layer_out in layer_outs:
+        # Thee previous full_name is the name is the rnn group
+        # We need a full_name outside the rnn group
+        layer_out.full_name = MakeLayerNameInSubmodel(layer_out.name)
    if len(layer_outs) == 1:
        return layer_outs[0]
    else:

--- a/python/paddle/v2/config_base.py
+++ b/python/paddle/v2/config_base.py
@@ -14,40 +14,24 @@
 import collections
 import re
-from paddle.trainer_config_helpers.default_decorators import wrap_name_default
 import paddle.trainer_config_helpers as conf_helps
-from topology import Topology
+__layer_map__ = {}
-class LayerType(type):
-    def __new__(cls, name, bases, attrs):
+def __map_docstr__(doc, name):
-        method_name = attrs.get('METHOD_NAME', None)
+    if doc is None:
-        if method_name is not None:
+        return doc
-            method = getattr(conf_helps, method_name)
-            if method.__doc__ is not None:
-                mapper = attrs.get("__map_docstr__", None)
-                if mapper is not None:
-                    attrs['__doc__'] = LayerType.__map_docstr__(
-                        mapper(method.__doc__),
-                        method_name=method_name,
-                        name=name)
-                else:
-                    attrs['__doc__'] = LayerType.__map_docstr__(
-                        method.__doc__, method_name=method_name, name=name)
-        return super(LayerType, cls).__new__(cls, name, bases, attrs)
-    @staticmethod
-    def __map_docstr__(doc, name, method_name):
    assert isinstance(doc, basestring)
    # replace LayerOutput to paddle.v2.config_base.Layer
    doc = doc.replace("LayerOutput", "paddle.v2.config_base.Layer")
-        doc = doc.replace('ParameterAttribute',
+    doc = doc.replace('ParameterAttribute', 'paddle.v2.attr.ParameterAttribute')
-                          'paddle.v2.attr.ParameterAttribute')
-        doc = re.sub(r'ExtraLayerAttribute[^\s]?',
+    doc = re.sub(r'ExtraLayerAttribute[^\s]?', 'paddle.v2.attr.ExtraAttribute',
-                     'paddle.v2.attr.ExtraAttribute', doc)
+                 doc)
    # xxx_layer to xxx
    doc = re.sub(r"(?P<name>[a-z]+)_layer", r"\g<name>", doc)
@@ -56,164 +40,29 @@ class LayerType(type):
    doc = re.sub(r"(?P<name>[A-Z][a-zA-Z]+)Activation",
                 r"paddle.v2.Activation.\g<name>", doc)
+    # xxx_evaluator to paddle.v2.evaluator.xxx
+    doc = re.sub(r"(?P<name>[a-z]+)_evaluator", r"evaluator.\g<name>", doc)
    # TODO(yuyang18): Add more rules if needed.
    return doc
-class Layer(object):
+def __convert_to_v2__(f, name, module):
-    __metaclass__ = LayerType
+    def wrapped(*args, **xargs):
+        out = f(*args, **xargs)
-    def __init__(self, name=None, parent_layers=None):
+        outs = out
-        assert isinstance(parent_layers, dict)
+        if not isinstance(out, collections.Sequence):
-        self.name = name
+            outs = [out]
-        self.__context__ = {}
+        for l in outs:
-        self.__parent_layers__ = parent_layers
+            if isinstance(l, conf_helps.LayerOutput):
-        # some layer may have some extra parent layer
+                __layer_map__[l.full_name] = l
-        self.__extra_parent__ = []
+        return out
-        # used for evaluator.
-        self.__children_layers__ = []
+    wrapped.__doc__ = __map_docstr__(f.__doc__, name)
+    wrapped.__name__ = name
-    def extra_parent(self):
+    wrapped.__module__ = module
-        return self.__extra_parent__
+    return wrapped
-    def append_extra_parent(self, parent):
-        self.__extra_parent__.append(parent)
+Layer = conf_helps.LayerOutput
-    def append_child(self, layer, parent_names):
-        self.__children_layers__.append((layer, parent_names))
-    def to_proto(self, context):
-        """
-        function to set proto attribute
-        """
-        self.__context__ = context
-        # STEP: short cut if this layer is parsed before.
-        if self.context_name() in context:
-            if self.use_context_name():
-                return context[self.context_name()]
-            else:
-                return context[self.name]
-        # STEP: parse extra_parent that is not used by this layer but must
-        # be parsed before this layer.
-        for p in self.__extra_parent__:
-            p.to_proto(context=context)
-        # STEP: parse parent that is used by this layer, get the result and
-        # insert into kwargs of the next layer's to_proto_impl method.
-        kwargs = dict()
-        for layer_name in self.__parent_layers__:
-            if not isinstance(self.__parent_layers__[layer_name],
-                              collections.Sequence):
-                v1_layer = self.__parent_layers__[layer_name].to_proto(
-                    context=context)
-            else:
-                v1_layer = map(lambda x: x.to_proto(context=context),
-                               self.__parent_layers__[layer_name])
-            kwargs[layer_name] = v1_layer
-        # STEP: parse myself and add myself into context.
-        ret_val = self.to_proto_impl(**kwargs)
-        if self.context_name() is not None \
-                and self.context_name() not in context:
-            context[self.context_name()] = ret_val
-        # STEP: parse children that should be pased after this layer.
-        for layer, pnames in self.__children_layers__:
-            drop = False
-            # child will only be parsed if all parents are in context.
-            for pname in pnames:
-                if pname not in context:
-                    drop = True
-                    break
-            if drop:
-                continue
-            layer.to_proto(context=context)
-        # STEP: return v1 layer result
-        if self.context_name() is None:
-            return ret_val
-        elif self.use_context_name():
-            return context[self.context_name()]
-        else:
-            return context[self.name]
-    def to_proto_impl(self, **kwargs):
-        raise NotImplementedError()
-    def context_name(self):
-        """
-        Context name means the context which stores `to_proto_impl` result.
-        If multiple layer share same context_name, the `to_proto_impl` of them
-        will be invoked only once.
-        """
-        return self.name
-    def use_context_name(self):
-        return False
-    def calculate_size(self):
-        """
-        lazy calculate size of the layer, should be called when to_proto_impl of
-        this layer is called.
-        :return:
-        """
-        return self.__context__[self.context_name()].size
-    def attr(self):
-        topo = Topology(self)
-        return topo.get_layer_proto(self.name)
-def __convert_to_v2__(method_name,
-                      parent_names,
-                      is_default_name=True,
-                      attach_parent=False):
-    if is_default_name:
-        wrapper = wrap_name_default(name_prefix=method_name)
-    else:
-        wrapper = None
-    class V2LayerImpl(Layer):
-        METHOD_NAME = method_name
-        def __init__(self, **kwargs):
-            parent_layers = dict()
-            other_kwargs = dict()
-            for pname in parent_names:
-                if pname in kwargs:
-                    parent_layers[pname] = kwargs[pname]
-            if attach_parent:
-                pnames = [x.context_name() for x in parent_layers.values()]
-                for pname in parent_layers:
-                    layers = kwargs[pname]
-                    if not isinstance(layers, collections.Sequence):
-                        layers = [layers]
-                    for layer in layers:
-                        layer.append_child(self, pnames)
-            for key in kwargs.keys():
-                if key not in parent_names:
-                    other_kwargs[key] = kwargs[key]
-            name = kwargs.get('name', None)
-            super(V2LayerImpl, self).__init__(name, parent_layers)
-            self.__other_kwargs__ = other_kwargs
-        if wrapper is not None:
-            __init__ = wrapper(__init__)
-        def to_proto_impl(self, **kwargs):
-            args = dict()
-            for each in kwargs:
-                args[each] = kwargs[each]
-            for each in self.__other_kwargs__:
-                args[each] = self.__other_kwargs__[each]
-            return getattr(conf_helps, method_name)(**args)
-    return V2LayerImpl
--- a/python/paddle/v2/evaluator.py
+++ b/python/paddle/v2/evaluator.py
@@ -13,8 +13,8 @@
 # limitations under the License.
 import paddle.trainer_config_helpers.evaluators as evs
-import inspect
 from config_base import __convert_to_v2__
+import inspect
 __all__ = []
@@ -25,21 +25,10 @@ def initialize():
    for __ev_name__ in filter(lambda x: x.endswith('_evaluator'), evs.__all__):
        __ev__ = getattr(evs, __ev_name__)
-        if hasattr(__ev__, 'argspec'):
-            argspec = __ev__.argspec
-        else:
-            argspec = inspect.getargspec(__ev__)
-        parent_names = filter(lambda x: x in ['input', 'label', 'weight'],
-                              argspec.args)
-        v2_ev = __convert_to_v2__(
-            __ev_name__,
-            parent_names=parent_names,
-            is_default_name='name' in argspec.args,
-            attach_parent=True)
        __new_name__ = convert_to_new_name(__ev_name__)
-        globals()[__new_name__] = v2_ev
+        globals()[__new_name__] = __convert_to_v2__(__ev__, __new_name__,
+                                                    __name__)
        globals()[__new_name__].__name__ = __new_name__
        __all__.append(__new_name__)

--- a/python/paddle/v2/inference.py
+++ b/python/paddle/v2/inference.py
--- a/python/paddle/v2/layer.py
+++ b/python/paddle/v2/layer.py
--- a/python/paddle/v2/networks.py
+++ b/python/paddle/v2/networks.py
@@ -24,20 +24,7 @@ def __initialize__():
        if each_subnetwork in ['inputs', 'outputs']:
            continue
        func = getattr(conf_nw, each_subnetwork)
-        if hasattr(func, 'argspec'):
+        globals()[each_subnetwork] = func
-            argspec = func.argspec
-        else:
-            argspec = inspect.getargspec(func)
-        if each_subnetwork == 'simple_attention':
-            parents = ['encoded_sequence', 'encoded_proj', 'decoder_state']
-        else:
-            parents = filter(lambda x: x.startswith('input'), argspec.args)
-        assert len(parents) != 0, each_subnetwork
-        v2_subnet = __convert_to_v2__(
-            each_subnetwork,
-            parent_names=parents,
-            is_default_name='name' in argspec.args)
-        globals()[each_subnetwork] = v2_subnet
        globals()[each_subnetwork].__name__ = each_subnetwork
        global __all__
        __all__.append(each_subnetwork)

--- a/python/paddle/v2/tests/test_layer.py
+++ b/python/paddle/v2/tests/test_layer.py
@@ -173,9 +173,9 @@ class OtherLayerTest(unittest.TestCase):
 class ProjOpTest(unittest.TestCase):
    def test_projection(self):
-        input = layer.data(name='data', type=data_type.dense_vector(784))
+        input = layer.data(name='data2', type=data_type.dense_vector(784))
        word = layer.data(
-            name='word', type=data_type.integer_value_sequence(10000))
+            name='word2', type=data_type.integer_value_sequence(10000))
        fc0 = layer.fc(input=input, size=100, act=activation.Sigmoid())
        fc1 = layer.fc(input=input, size=200, act=activation.Sigmoid())
        mixed0 = layer.mixed(
@@ -204,8 +204,8 @@ class ProjOpTest(unittest.TestCase):
            dotmul1 += dotmul
        context = layer.context_projection(input=fc0, context_len=5)
-        context0 = layer.mixed(size=100, input=context)
+        context0 = layer.mixed(size=500, input=context)
-        with layer.mixed(size=100) as context1:
+        with layer.mixed(size=500) as context1:
            context1 += context
        conv = layer.conv_projection(
@@ -231,8 +231,8 @@ class ProjOpTest(unittest.TestCase):
        print layer.parse_network(conv1)
    def test_operator(self):
-        ipt0 = layer.data(name='data', type=data_type.dense_vector(784))
+        ipt0 = layer.data(name='data1', type=data_type.dense_vector(784))
-        ipt1 = layer.data(name='word', type=data_type.dense_vector(128))
+        ipt1 = layer.data(name='word1', type=data_type.dense_vector(128))
        fc0 = layer.fc(input=ipt0, size=100, act=activation.Sigmoid())
        fc1 = layer.fc(input=ipt0, size=100, act=activation.Sigmoid())
@@ -261,7 +261,7 @@ class ProjOpTest(unittest.TestCase):
 class NetworkTests(unittest.TestCase):
    def test_vgg(self):
-        img = layer.data(name='pixel', type=data_type.dense_vector(784))
+        img = layer.data(name='pixel1', type=data_type.dense_vector(784))
        vgg_out = networks.small_vgg(
            input_image=img, num_channels=1, num_classes=2)
        print layer.parse_network(vgg_out)
@@ -269,12 +269,12 @@ class NetworkTests(unittest.TestCase):
 class EvaluatorTest(unittest.TestCase):
    def test_evaluator(self):
-        img = layer.data(name='pixel', type=data_type.dense_vector(784))
+        img = layer.data(name='pixel2', type=data_type.dense_vector(784))
        output = layer.fc(input=img,
                          size=10,
                          act=activation.Softmax(),
                          name='fc_here')
-        lbl = layer.data(name='label', type=data_type.integer_value(10))
+        lbl = layer.data(name='label2', type=data_type.integer_value(10))
        cost = layer.cross_entropy_cost(input=output, label=lbl)
        evaluator.classification_error(input=output, label=lbl)

--- a/python/paddle/v2/tests/test_rnn_layer.py
+++ b/python/paddle/v2/tests/test_rnn_layer.py
@@ -20,6 +20,8 @@ import paddle.v2.data_type as data_type
 import paddle.v2.layer as layer
 from paddle.trainer_config_helpers.config_parser_utils import \
    parse_network_config as parse_network
+from paddle.trainer_config_helpers.config_parser_utils import \
+    reset_parser
 class RNNTest(unittest.TestCase):
@@ -29,6 +31,8 @@ class RNNTest(unittest.TestCase):
        hidden_dim = 8
        def parse_old_rnn():
+            reset_parser()
            def step(y):
                mem = conf_helps.memory(name="rnn_state", size=hidden_dim)
                out = conf_helps.fc_layer(
@@ -48,6 +52,8 @@ class RNNTest(unittest.TestCase):
            return str(parse_network(test))
        def parse_new_rnn():
+            reset_parser()
            def new_step(y):
                mem = layer.memory(name="rnn_state", size=hidden_dim)
                out = layer.fc(input=[y, mem],
@@ -75,6 +81,8 @@ class RNNTest(unittest.TestCase):
        label_dim = 3
        def parse_old_rnn():
+            reset_parser()
            def test():
                data = conf_helps.data_layer(name="word", size=dict_dim)
                label = conf_helps.data_layer(name="label", size=label_dim)
@@ -114,6 +122,7 @@ class RNNTest(unittest.TestCase):
            return str(parse_network(test))
        def parse_new_rnn():
+            reset_parser()
            data = layer.data(
                name="word", type=data_type.dense_vector(dict_dim))
            label = layer.data(

--- a/python/paddle/v2/tests/test_topology.py
+++ b/python/paddle/v2/tests/test_topology.py
@@ -46,8 +46,8 @@ class TestTopology(unittest.TestCase):
        self.assertEqual(label_data_type[1].dim, 10)
    def test_get_layer(self):
-        pixel = layer.data(name='pixel', type=data_type.dense_vector(784))
+        pixel = layer.data(name='pixel2', type=data_type.dense_vector(784))
-        label = layer.data(name='label', type=data_type.integer_value(10))
+        label = layer.data(name='label2', type=data_type.integer_value(10))
        hidden = layer.fc(input=pixel,
                          size=100,
                          act=conf_helps.SigmoidActivation())
@@ -56,14 +56,14 @@ class TestTopology(unittest.TestCase):
                             act=conf_helps.SoftmaxActivation())
        cost = layer.classification_cost(input=inference, label=label)
        topo = topology.Topology(cost)
-        pixel_layer = topo.get_layer("pixel")
+        pixel_layer = topo.get_layer("pixel2")
-        label_layer = topo.get_layer("label")
+        label_layer = topo.get_layer("label2")
        self.assertEqual(pixel_layer, pixel)
        self.assertEqual(label_layer, label)
    def test_parse(self):
-        pixel = layer.data(name='pixel', type=data_type.dense_vector(784))
+        pixel = layer.data(name='pixel3', type=data_type.dense_vector(784))
-        label = layer.data(name='label', type=data_type.integer_value(10))
+        label = layer.data(name='label3', type=data_type.integer_value(10))
        hidden = layer.fc(input=pixel,
                          size=100,
                          act=conf_helps.SigmoidActivation())

--- a/python/paddle/v2/topology.py
+++ b/python/paddle/v2/topology.py
@@ -15,36 +15,13 @@
 import collections
 from paddle.proto.ModelConfig_pb2 import ModelConfig
+import paddle.trainer_config_helpers as conf_helps
 import layer as v2_layer
+import config_base
 __all__ = ['Topology']
-def __flatten__(lis):
-    """
-    Given a list, possibly nested to any level, return it flattened.
-    """
-    new_lis = []
-    for item in lis:
-        if isinstance(item, collections.Sequence):
-            new_lis.extend(__flatten__(item))
-        else:
-            new_lis.append(item)
-    return new_lis
-def __bfs_travel__(callback, *layers):
-    layers = __flatten__(layers)
-    for each_layer in layers:
-        __break__ = callback(each_layer)
-        if __break__:
-            return
-        __layers__ = each_layer.__parent_layers__.values() + \
-                     each_layer.extra_parent()
-        __bfs_travel__(callback, *__layers__)
 class Topology(object):
    """
    Topology is used to store the information about all layers
@@ -94,31 +71,18 @@ class Topology(object):
        :param name:
        :return:
        """
-        result_layer = [None]
+        return v2_layer.get_layer(name)
-        def __impl__(l):
-            if l.name == name:
-                result_layer[0] = l
-                return True  # break
-            return False
-        __bfs_travel__(__impl__, *self.layers)
-        if result_layer[0] is None:
-            raise ValueError("No such layer %s" % name)
-        return result_layer[0]
    def data_layers(self):
        """
        get all data layer
        :return:
        """
-        data_layers = dict()
+        data_layers = {}
+        for layer in self.proto().layers:
-        def __impl__(l):
+            l = v2_layer.get_layer(layer.name)
-            if isinstance(l, v2_layer.DataLayerV2):
+            if l and l.layer_type == conf_helps.LayerType.DATA:
-                data_layers[l.name] = l
+                data_layers[layer.name] = l
-        __bfs_travel__(__impl__, *self.layers)
        return data_layers
    def data_type(self):
@@ -127,7 +91,7 @@ class Topology(object):
        [('image', dense_vector(768)), ('label', integer_value(10))]
        """
        data_layers = self.data_layers()
-        return [(nm, data_layers[nm].type)
+        return [(nm, data_layers[nm].data_type)
                for nm in self.proto().input_layer_names]
    def get_layer_proto(self, name):
@@ -138,5 +102,5 @@ class Topology(object):
 def __check_layer_type__(layer):
-    if not isinstance(layer, v2_layer.LayerV2):
+    if not isinstance(layer, config_base.Layer):
-        raise ValueError('layer should have type paddle.layer.Layer')
+        raise ValueError('layer should have type paddle.v2.config_base.Layer')