为了账号安全,请及时绑定邮箱和手机立即绑定

通过将单词与英语单词白名单进行比较来检查单词是否是英语的快速(er)方法?

通过将单词与英语单词白名单进行比较来检查单词是否是英语的快速(er)方法?

跃然一笑 2021-07-23 17:06:35
我试图从许多 (100k) 预处理文本文件中消除所有非英语单词(porter 词干和小写,删除所有非 az 字符)。我已经将这个过程并行化以加快速度,但它仍然非常缓慢。在python中有没有更有效的方法来做到这一点?englishwords = list(set(nltk.corpus.words.words()))englishwords = [x.lower() for x in list(englishwords)]englishwords = [ps.stem(w) for w in englishwords]# this step takes too long:shareholderletter= ' '.join(w for w in nltk.wordpunct_tokenize(shareholderletter) if w in englishwords)
查看完整描述

1 回答

  • 1 回答
  • 0 关注
  • 145 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信