【question】hsigmoid层的原理及用法
Created by: pkuyym
文档上给出的解释是:
Organize the classes into a binary tree. At each node, a sigmoid function is used to calculate the probability of belonging to the right branch cost = hsigmoid(input=[layer1, layer2], label=data_layer, num_classes=3)
问题1: word2vec里面是建立一个哈夫曼树,来最小化总开销,这里面并没有类别的频次信息,所以应该不是构建哈夫曼树,请问binary tree如何建立
问题2: 这个输出是一个cost,在训练时没有问题,请问在predict时,如何获取每个类别的概率?
问题3: 有没有经验,这样做会多大程度上影响模型的收敛?