我有大约 20k 个 60 - 150 字的文档。在这 20K 个文档中,有 400 个文档已知类似文档。这 400 个文档作为我的测试数据。我正在尝试使用 gensim doc2vec 为这 400 个数据集找到类似的文档。“句子和文档的分布式表示”一文说,“PV-DM 和 PV-DBOW 的组合通常效果更好(在 IMDB 中为 7.42%),因此被推荐。”所以我想将这两种方法的向量结合起来,找到与所有训练文件的余弦相似度,并选择余弦距离最小的前 5 个。那么结合这两种方法的向量的有效方法是什么:加法或平均或任何其他方法???组合这两个向量后,我可以对每个向量进行归一化,然后找到余弦距离。
1 回答

蛊毒传说
TA贡献1895条经验 获得超3个赞
该论文暗示他们已经连接了这两种方法的向量。例如,给定一个 300d PV-DBOW 向量和一个 300d PV-DM 向量,您将在连接后得到一个 600d 的文本向量。
但是,请注意,他们在 IMDB 上的底线结果很难让外人重现。我的测试有时只显示了这些连接向量的小优势。(我特别想知道通过分离级联模型的 300d PV-DBOW + 300d PV-DM 是否比仅在相同的时间内以更少的步骤/并发症训练真正的 600d 模型更好。)
gensim
您可以在其docs/notebooks
目录中包含的示例笔记本之一中查看我重复原始“段落向量”论文的一些实验的演示:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb
除其他外,它包括一些步骤和有用的方法,用于将模型对视为一个连接的整体。
添加回答
举报
0/150
提交
取消