为了账号安全,请及时绑定邮箱和手机立即绑定

如何结合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量?

如何结合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量?

陪伴而非守候 2022-04-24 18:49:37
我有大约 20k 个 60 - 150 字的文档。在这 20K 个文档中,有 400 个文档已知类似文档。这 400 个文档作为我的测试数据。我正在尝试使用 gensim doc2vec 为这 400 个数据集找到类似的文档。“句子和文档的分布式表示”一文说,“PV-DM 和 PV-DBOW 的组合通常效果更好(在 IMDB 中为 7.42%),因此被推荐。”所以我想将这两种方法的向量结合起来,找到与所有训练文件的余弦相似度,并选择余弦距离最小的前 5 个。那么结合这两种方法的向量的有效方法是什么:加法或平均或任何其他方法???组合这两个向量后,我可以对每个向量进行归一化,然后找到余弦距离。
查看完整描述

1 回答

?
蛊毒传说

TA贡献1895条经验 获得超3个赞

该论文暗示他们已经连接了这两种方法的向量。例如,给定一个 300d PV-DBOW 向量和一个 300d PV-DM 向量,您将在连接后得到一个 600d 的文本向量。

但是,请注意,他们在 IMDB 上的底线结果很难让外人重现。我的测试有时只显示了这些连接向量的小优势。(我特别想知道通过分离级联模型的 300d PV-DBOW + 300d PV-DM 是否比仅在相同的时间内以更少的步骤/并发症训练真正的 600d 模型更好。)

gensim您可以在其docs/notebooks目录中包含的示例笔记本之一中查看我重复原始“段落向量”论文的一些实验的演示:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

除其他外,它包括一些步骤和有用的方法,用于将模型对视为一个连接的整体。


查看完整回答
反对 回复 2022-04-24
  • 1 回答
  • 0 关注
  • 299 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号