为了账号安全,请及时绑定邮箱和手机立即绑定

如何在 python 中对文本执行 K-均值聚类?

如何在 python 中对文本执行 K-均值聚类?

偶然的你 2023-03-01 09:17:24
我有成千上万这样的元素:[ "business_id_a", [ "Food", "Restaurant","Wine & Pizza"] ] [ "business_id_b", ["Mexican", "Burgers", "Gastropubs & Wine" ] ]... [ "business_id_k", ["Automotive", "Delivery","Whatever"] ]我想使用 k-means 按类别分组主题来对 business_id 进行聚类。也许这不是最好的选择。我的想法是创建一种类别词典,首先以任何方式对所有可能的类别进行分组,然后使用该模型,将样本按类别集群分组为 business_id 组。这行得通吗?在 Python 中哪种方法最好?
查看完整描述

1 回答

?
慕标5832272

TA贡献1966条经验 获得超4个赞

最好的选择是首先对文本进行标记化和矢量化。您可以使用 NLTK 的单词标记器进行标记化https://www.nltk.org/api/nltk.tokenize.html

然后你可以使用 sklearn 的 CountVectorizer 或 TFIDFVectorizer 之类的东西进行矢量化

从那里,你可以应用 k-means


查看完整回答
反对 回复 2023-03-01
  • 1 回答
  • 0 关注
  • 129 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号