PaddleNLP/paddlenlp/utils/downloader.py · 5f1a2063f4a8985af9eecd9977c99b0d8466ff8c · PaddlePaddle / models

由 Jack Zhou 提交于 12月 10, 2020

* Add TokenEmbedding

* download corpus embedding data
* load embedding data by specifying corpus name
* extend the vocab of tokenizer from corpus embedding data

* add unk token setting

* modify tokenizer

* add extend voacb

* move jieba tokenizer and rename corpus_name->embedding_name

* use bos url instead of localhost

* add log when loading data

* add token dot computation; add __repr__ of TokenEmbedding

* add color logging

* use paddlenlp.utils.log

* adjust repr

* update pretrained embedding table

* fix padding idx

e59f15a1

downloader.py 11.0 KB

PaddlePaddle / models 大约 1 年 前同步成功

Replace downloader.py

PaddlePaddle / models
大约 1 年前同步成功