为了账号安全,请及时绑定邮箱和手机立即绑定

如何在gensim的word2vec模型中嵌入用户名

如何在gensim的word2vec模型中嵌入用户名

牧羊人nacy 2022-10-18 16:56:32
我有一些志愿论文写作,格式如下:volunteer_names, essay["emi", "jenne", "john"], [["lets", "protect", "nature"], ["what", "is", "nature"], ["nature", "humans", "earth"]]["jenne", "li"], [["lets", "manage", "waste"]]["emi", "li", "jim"], [["python", "is", "cool"]].........我想根据他们的论文写作来识别相似的用户。我觉得 word2vec 更适合这样的问题。但是,由于我也想在模型中嵌入用户名,我不知道该怎么做。我在互联网上找到的示例仅使用单词(参见示例代码)。import gensim sentences = [['first', 'sentence'], ['second', 'sentence']]# train word2vec on the two sentencesmodel = gensim.models.Word2Vec(sentences, min_count=1)在这种情况下,我想知道在 word2vec 中是否有特殊的方法可以做到这一点,或者我可以简单地将用户名视为输入模型的单词。请让我知道您对此的看法。如果需要,我很乐意提供更多详细信息。
查看完整描述

1 回答

?
素胚勾勒不出你

TA贡献1827条经验 获得超9个赞

Word2vec 从周围的词中推断词的表示:相似的词经常出现在相似的公司中,最终得到相似的向量。通常,考虑 5 个单词的窗口。因此,如果您想破解 Word2vec,您需要确保学生姓名出现的频率足够高(可能出现在句子的开头和结尾或类似的地方)。

或者,您可以查看 Doc2vec。在训练期间,每个文档都获得一个 ID 并学习该 ID 的嵌入,它们在查找表中,就好像它们是词嵌入一样。如果您使用学生姓名作为文档 ID,您将获得学生嵌入。如果您有来自一个学生的多篇论文,我想您需要稍微破解 Gensim 才能使每篇论文都没有唯一的 ID。


查看完整回答
反对 回复 2022-10-18
  • 1 回答
  • 0 关注
  • 68 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信