Created by: stevenheleah
您好!就是在论文中(ernie1.0),您提到在知识结合的预训练过程中,采用了三种mask方式:基本的字符mask,实体mask,短语mask。我想问一下,具体这三种处理的方式在实际的预训练过程中是怎样结合的,另外,实体mask和短语mask还会保证每句15%的mask比例吗?下面是我的一些猜想: 没有实体和短语的采用字符mask,有实体和短语的,随机mask当中的实体和短语,保证每句话不超过15%的mask比例