Created by: xiaochang129
readme中:这个方法与bert最大的区别在于不是mask随机字,而是mask随机词。 代码batching中:以词为单位,首字和其他字的mask方法不一致! 非首字按bert方法mask,首字按15%,15%,70%分别mask,replace,不变。 个人看法:保持首字和其余字的mask方法一致,效果会更好。