未验证 提交 ba49d786 编写于 作者: K KP 提交者: GitHub

Remove arg "max_seq_len" in get_embedding method (#1168)

* update get_embedding
上级 7ee2f8a1
...@@ -55,7 +55,6 @@ def predict( ...@@ -55,7 +55,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -65,7 +64,6 @@ def get_embedding( ...@@ -65,7 +64,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -54,7 +54,6 @@ def predict( ...@@ -54,7 +54,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -64,7 +63,6 @@ def get_embedding( ...@@ -64,7 +63,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -54,7 +54,6 @@ def predict( ...@@ -54,7 +54,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -64,7 +63,6 @@ def get_embedding( ...@@ -64,7 +63,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -54,7 +54,6 @@ def predict( ...@@ -54,7 +54,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -64,7 +63,6 @@ def get_embedding( ...@@ -64,7 +63,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -54,7 +54,6 @@ def predict( ...@@ -54,7 +54,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -64,7 +63,6 @@ def get_embedding( ...@@ -64,7 +63,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -54,7 +54,6 @@ def predict( ...@@ -54,7 +54,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -64,7 +63,6 @@ def get_embedding( ...@@ -64,7 +63,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -54,7 +54,6 @@ def predict( ...@@ -54,7 +54,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -64,7 +63,6 @@ def get_embedding( ...@@ -64,7 +63,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -52,7 +52,6 @@ def predict( ...@@ -52,7 +52,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -62,7 +61,6 @@ def get_embedding( ...@@ -62,7 +61,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -52,7 +52,6 @@ def predict( ...@@ -52,7 +52,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -62,7 +61,6 @@ def get_embedding( ...@@ -62,7 +61,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -64,7 +64,6 @@ def predict( ...@@ -64,7 +64,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -74,7 +73,6 @@ def get_embedding( ...@@ -74,7 +73,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -64,7 +64,6 @@ def predict( ...@@ -64,7 +64,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -74,7 +73,6 @@ def get_embedding( ...@@ -74,7 +73,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -60,7 +60,6 @@ def predict( ...@@ -60,7 +60,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -70,7 +69,6 @@ def get_embedding( ...@@ -70,7 +69,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -59,7 +59,6 @@ def predict( ...@@ -59,7 +59,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -69,7 +68,6 @@ def get_embedding( ...@@ -69,7 +68,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -52,7 +52,6 @@ def predict( ...@@ -52,7 +52,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -62,7 +61,6 @@ def get_embedding( ...@@ -62,7 +61,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -52,7 +52,6 @@ def predict( ...@@ -52,7 +52,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -62,7 +61,6 @@ def get_embedding( ...@@ -62,7 +61,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -53,7 +53,6 @@ def predict( ...@@ -53,7 +53,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -63,7 +62,6 @@ def get_embedding( ...@@ -63,7 +62,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -53,7 +53,6 @@ def predict( ...@@ -53,7 +53,6 @@ def predict(
```python ```python
def get_embedding( def get_embedding(
data, data,
max_seq_len=128,
use_gpu=False use_gpu=False
) )
``` ```
...@@ -63,7 +62,6 @@ def get_embedding( ...@@ -63,7 +62,6 @@ def get_embedding(
**参数** **参数**
* `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。 * `data`:输入文本列表,格式为\[\[sample\_a\_text\_a, sample\_a\_text\_b\], \[sample\_b\_text\_a, sample\_b\_text\_b\],…,\],其中每个元素都是一个样例,每个样例可以包含text\_a与text\_b。
* `max_seq_len`:模型处理文本的最大长度。
* `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。 * `use_gpu`:是否使用gpu,默认为False。对于GPU用户,建议开启use_gpu。
**返回** **返回**
......
...@@ -390,7 +390,7 @@ class TextServing(object): ...@@ -390,7 +390,7 @@ class TextServing(object):
] ]
return results return results
elif self.task is None: # embedding service elif self.task is None: # embedding service
results = self.get_embedding(data, max_seq_len, use_gpu) results = self.get_embedding(data, use_gpu)
return results return results
else: # unknown service else: # unknown service
logger.error( logger.error(
...@@ -477,14 +477,11 @@ class TransformerModule(RunModule, TextServing): ...@@ -477,14 +477,11 @@ class TransformerModule(RunModule, TextServing):
predictions, avg_loss, metric = self(input_ids=batch[0], token_type_ids=batch[1], seq_lengths=batch[2], labels=batch[3]) predictions, avg_loss, metric = self(input_ids=batch[0], token_type_ids=batch[1], seq_lengths=batch[2], labels=batch[3])
return {'metrics': metric} return {'metrics': metric}
def get_embedding(self, data: List[List[str]], max_seq_len=128, use_gpu=False): def get_embedding(self, data: List[List[str]], use_gpu=False):
""" """
Get token level embeddings and sentence level embeddings from model. Get token level embeddings and sentence level embeddings from model.
Args: Args:
data (obj:`List(List(str))`): The processed data whose each element is the list of a single text or a pair of texts. data (obj:`List(List(str))`): The processed data whose each element is the list of a single text or a pair of texts.
max_seq_len (:obj:`int`, `optional`, defaults to :int:`None`):
If set to a number, will limit the total sequence returned so that it has a maximum length.
batch_size(obj:`int`, defaults to 1): The number of batch.
use_gpu(obj:`bool`, defaults to `False`): Whether to use gpu to run or not. use_gpu(obj:`bool`, defaults to `False`): Whether to use gpu to run or not.
Returns: Returns:
...@@ -495,8 +492,6 @@ class TransformerModule(RunModule, TextServing): ...@@ -495,8 +492,6 @@ class TransformerModule(RunModule, TextServing):
return self.predict( return self.predict(
data=data, data=data,
max_seq_len=max_seq_len,
batch_size=1,
use_gpu=use_gpu use_gpu=use_gpu
) )
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册