为了账号安全,请及时绑定邮箱和手机立即绑定

Doc2Vec 预训练和推断向量

Doc2Vec 预训练和推断向量

函数式编程 2022-09-06 19:46:42
假设我已经使用50000个文档训练了doc2vec模型,并且我想为包含36000个文档的单独数据集推断向量。在这种情况下,推断的向量对于下游的分类任务是否有效,因为我的假设是推断的向量取决于训练模型的文档的大小。注意:两个数据集,即用于训练doc2vec的数据集和另一个用于推断向量的数据集都是唯一的,但来自美国最高法院的同一领域。如果我有正当理由错了,请纠正我。
查看完整描述

1 回答

?
守着星空守着你

TA贡献1799条经验 获得超8个赞

有了这样一个微小的数据集,我无法给出的答案不会像尝试一下看看它是否有效一样有用。

50000 对于训练集来说很小,但一些有用的结果是基于类似的语料库。Doc2Vec

与训练一样,向量推理将任意长度的文档简化为固定大小的向量。(但请注意:gensim默默地将提供给模型的任何文本限制为10000个令牌。2Vec

但是,如果你已经在大约1000个单词的文档上训练了一个模型,那么尝试在10个单词的片段上进行推理,那么这些文档向量可能不如在更类似于训练集的文档上的推断向量有用或有用。但是您仍然需要尝试一下才能找到答案。(另请注意:在训练期间未学习的单词在推理过程中会被完全忽略,因此以后对具有许多/所有未知单词的文档的推断将是弱的或无意义的。

您的推理文档是否属于这种情况 - 它们在大小和词汇量上与训练文档有很大不同?如果是这样,为什么?(你能用更具代表性的文件进行培训吗?

如果在训练开始之前修复了 36000 个文档集,则将它们包含在无监督训练中也可能是有效/可辩护的。它们是数据,它们有助于学习领域术语,并且它们中没有任何形式的“正确”分类答案。Doc2Vec


查看完整回答
反对 回复 2022-09-06
  • 1 回答
  • 0 关注
  • 95 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号