Remove arg "max_seq_len" in get_embedding method (#1168)

* update get_embedding

Remove arg "max_seq_len" in get_embedding method (#1168)
* update get_embedding
ba49d786 · KP · GitHub · 7ee2f8a1 · ba49d786 · ba49d786
18 changed file
--- a/modules/text/language_model/bert-base-cased/README.md
+++ b/modules/text/language_model/bert-base-cased/README.md
@@ -55,7 +55,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -65,7 +64,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/bert-base-chinese/README.md
+++ b/modules/text/language_model/bert-base-chinese/README.md
@@ -54,7 +54,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -64,7 +63,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/bert-base-multilingual-cased/README.md
+++ b/modules/text/language_model/bert-base-multilingual-cased/README.md
@@ -54,7 +54,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -64,7 +63,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/bert-base-multilingual-uncased/README.md
+++ b/modules/text/language_model/bert-base-multilingual-uncased/README.md
@@ -54,7 +54,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -64,7 +63,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/bert-base-uncased/README.md
+++ b/modules/text/language_model/bert-base-uncased/README.md
@@ -54,7 +54,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -64,7 +63,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/bert-large-cased/README.md
+++ b/modules/text/language_model/bert-large-cased/README.md
@@ -54,7 +54,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -64,7 +63,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/bert-large-uncased/README.md
+++ b/modules/text/language_model/bert-large-uncased/README.md
@@ -54,7 +54,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -64,7 +63,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/chinese_bert_wwm/README.md
+++ b/modules/text/language_model/chinese_bert_wwm/README.md
@@ -52,7 +52,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -62,7 +61,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/chinese_bert_wwm_ext/README.md
+++ b/modules/text/language_model/chinese_bert_wwm_ext/README.md
@@ -52,7 +52,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -62,7 +61,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/ernie/README.md
+++ b/modules/text/language_model/ernie/README.md
@@ -64,7 +64,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -74,7 +73,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/ernie_tiny/README.md
+++ b/modules/text/language_model/ernie_tiny/README.md
@@ -64,7 +64,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -74,7 +73,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/ernie_v2_eng_base/README.md
+++ b/modules/text/language_model/ernie_v2_eng_base/README.md
@@ -60,7 +60,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -70,7 +69,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/ernie_v2_eng_large/README.md
+++ b/modules/text/language_model/ernie_v2_eng_large/README.md
@@ -59,7 +59,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -69,7 +68,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/rbt3/README.md
+++ b/modules/text/language_model/rbt3/README.md
@@ -52,7 +52,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -62,7 +61,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/rbtl3/README.md
+++ b/modules/text/language_model/rbtl3/README.md
@@ -52,7 +52,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -62,7 +61,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/roberta-wwm-ext-large/README.md
+++ b/modules/text/language_model/roberta-wwm-ext-large/README.md
@@ -53,7 +53,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -63,7 +62,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/modules/text/language_model/roberta-wwm-ext/README.md
+++ b/modules/text/language_model/roberta-wwm-ext/README.md
@@ -53,7 +53,6 @@ def predict(
 ```python
 def get_embedding(
    data,
-    max_seq_len=128,
    use_gpu=False
 )
 ```
@@ -63,7 +62,6 @@ def get_embedding(
 **参数**
 * `data`：输入文本列表，格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\]，其中每个元素都是一个样例，每个样例可以包含text\_a与text\_b。
-* `max_seq_len`：模型处理文本的最大长度。
 * `use_gpu`：是否使用gpu，默认为False。对于GPU用户，建议开启use_gpu。
 **返回**

--- a/paddlehub/module/nlp_module.py
+++ b/paddlehub/module/nlp_module.py
@@ -390,7 +390,7 @@ class TextServing(object):
                ]
            return results
        elif self.task is None:                 # embedding service
-            results = self.get_embedding(data, max_seq_len, use_gpu)
+            results = self.get_embedding(data, use_gpu)
            return results
        else:                                   # unknown service
            logger.error(
@@ -477,14 +477,11 @@ class TransformerModule(RunModule, TextServing):
            predictions, avg_loss, metric = self(input_ids=batch[0], token_type_ids=batch[1], seq_lengths=batch[2], labels=batch[3])
        return {'metrics': metric}
-    def get_embedding(self, data: List[List[str]], max_seq_len=128, use_gpu=False):
+    def get_embedding(self, data: List[List[str]], use_gpu=False):
        """
        Get token level embeddings and sentence level embeddings from model.
        Args:
            data (obj:`List(List(str))`): The processed data whose each element is the list of a single text or a pair of texts.
-            max_seq_len (:obj:`int`, `optional`, defaults to :int:`None`):
-                If set to a number, will limit the total sequence returned so that it has a maximum length.
-            batch_size(obj:`int`, defaults to 1): The number of batch.
            use_gpu(obj:`bool`, defaults to `False`): Whether to use gpu to run or not.
        Returns:
@@ -495,8 +492,6 @@ class TransformerModule(RunModule, TextServing):
        return self.predict(
            data=data,
-            max_seq_len=max_seq_len,
-            batch_size=1,
            use_gpu=use_gpu
        )