假设我已经使用50000个文档训练了doc2vec模型,并且我想为包含36000个文档的单独数据集推断向量。在这种情况下,推断的向量对于下游的分类任务是否有效,因为我的假设是推断的向量取决于训练模型的文档的大小。注意:两个数据集,即用于训练doc2vec的数据集和另一个用于推断向量的数据集都是唯一的,但来自美国最高法院的同一领域。如果我有正当理由错了,请纠正我。
1 回答

守着星空守着你
TA贡献1799条经验 获得超8个赞
有了这样一个微小的数据集,我无法给出的答案不会像尝试一下看看它是否有效一样有用。
50000 对于训练集来说很小,但一些有用的结果是基于类似的语料库。Doc2Vec
与训练一样,向量推理将任意长度的文档简化为固定大小的向量。(但请注意:gensim默默地将提供给模型的任何文本限制为10000个令牌。2Vec
但是,如果你已经在大约1000个单词的文档上训练了一个模型,那么尝试在10个单词的片段上进行推理,那么这些文档向量可能不如在更类似于训练集的文档上的推断向量有用或有用。但是您仍然需要尝试一下才能找到答案。(另请注意:在训练期间未学习的单词在推理过程中会被完全忽略,因此以后对具有许多/所有未知单词的文档的推断将是弱的或无意义的。
您的推理文档是否属于这种情况 - 它们在大小和词汇量上与训练文档有很大不同?如果是这样,为什么?(你能用更具代表性的文件进行培训吗?
如果在训练开始之前修复了 36000 个文档集,则将它们包含在无监督训练中也可能是有效/可辩护的。它们是数据,它们有助于学习领域术语,并且它们中没有任何形式的“正确”分类答案。Doc2Vec
添加回答
举报
0/150
提交
取消