如何使用nltk或python删除停用词所以我有一个数据集,我想删除使用的停止词stopwords.words('english')我正在努力如何在我的代码中使用它只是简单地取出这些单词。我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词。任何帮助表示赞赏。
3 回答
慕的地8271018
TA贡献1796条经验 获得超4个赞
from nltk.corpus import stopwords# ...filtered_words = [word for word in word_list if word not in stopwords.words('english')]
www说
TA贡献1775条经验 获得超8个赞
你也可以做一个设置差异,例如:
list(set(nltk.regexp_tokenize(sentence, pattern, gaps=True)) - set(nltk.corpus.stopwords.words('english')))
猛跑小猪
TA贡献1858条经验 获得超8个赞
我想你有一个单词列表(word_list),你想从中删除停用词。你可以这样做:
filtered_word_list = word_list[:] #make a copy of the word_listfor word in word_list: # iterate over word_list if word in stopwords.words('english'): filtered_word_list.remove(word) # remove word from filtered_word_list if it is a stopword
添加回答
举报
0/150
提交
取消