为了账号安全,请及时绑定邮箱和手机立即绑定

熊猫快速移除标点符号

熊猫快速移除标点符号

熊猫快速移除标点符号这是一个自我回复的帖子。下面,我概述了NLP领域的一个常见问题,并提出了一些解决该问题的性能方法。经常需要移除标点符号在文本清理和预处理过程中。标点符号定义为string.punctuation:>>> import string string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'这是一个很常见的问题,在令人作呕之前就已经被问到了。最地道的解决办法是用熊猫str.replace..但是,对于涉及罗得对于文本,可能需要考虑一种更具表现力的解决方案。什么是好的、有表现力的替代方案?str.replace在处理成千上万的记录时?
查看完整描述

3 回答

?
尚方宝剑之说

TA贡献1788条经验 获得超4个赞

有趣的是Series.str.Transform方法仍然比Vanilla Python稍慢一些。str.translate():

def pd_translate(df):
    return df.assign(text=df['text'].str.translate(transtab))


查看完整回答
反对 回复 2019-07-01
  • 3 回答
  • 0 关注
  • 690 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信