我试图从许多 (100k) 预处理文本文件中消除所有非英语单词(porter 词干和小写,删除所有非 az 字符)。我已经将这个过程并行化以加快速度,但它仍然非常缓慢。在python中有没有更有效的方法来做到这一点?englishwords = list(set(nltk.corpus.words.words()))englishwords = [x.lower() for x in list(englishwords)]englishwords = [ps.stem(w) for w in englishwords]# this step takes too long:shareholderletter= ' '.join(w for w in nltk.wordpunct_tokenize(shareholderletter) if w in englishwords)
添加回答
举报
0/150
提交
取消