首页手记几种简单的文本数据预处理方法

几种简单的文本数据预处理方法

标签：

深度学习

下载数据：
http://www.gutenberg.org/cache/epub/5200/pg5200.txt

将开头和结尾的一些信息去掉，使得开头如下：

One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.

结尾如下：

And, as if in confirmation of their new dreams and good intentions, as soon as they reached their destination Grete was the first to get up and stretch out her young body.

保存为：metamorphosis_clean.txt

加载数据：

filename = 'metamorphosis_clean.txt'file = open(filename, 'rt')
text = file.read()
file.close()

1. 用空格分隔：

words = text.split()print(words[:100])# ['One', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', ...]

2. 用 re 分隔单词：
和上一种方法的区别是，'armour-like' 被识别成两个词 'armour', 'like'，'"What's' 变成了 'What', 's'

import re
words = re.split(r'\W+', text)
print(words[:100])

3. 用空格分隔并去掉标点：
string 里的 string.punctuation 可以知道都有哪些算是标点符号，
maketrans() 可以建立一个空的映射表，其中 string.punctuation 是要被去掉的列表，
translate() 可以将一个字符串集映射到另一个集，
也就是 'armour-like' 被识别成 'armourlike'，'"What's' 被识别成 'Whats'

words = text.split()import string
table = str.maketrans('', '', string.punctuation)
stripped = [w.translate(table) for w in words]
print(stripped[:100])

4. 都变成小写：
当然大写可以用 word.upper()。

words = [word.lower() for word in words]print(words[:100])

安装 NLTK：
nltk.download() 后弹出对话框，选择 all，点击 download

import nltk
nltk.download()

5. 分成句子：
用到 sent_tokenize()

from nltk import sent_tokenize
sentences = sent_tokenize(text)
print(sentences[0])

6. 分成单词：
用到 word_tokenize，
这次 'armour-like' 还是 'armour-like'，'"What's' 就是 'What', "'s",

from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
print(tokens[:100])

7. 过滤标点：
只保留 alphabetic，其他的滤掉，
这样的话 “armour-like” 和 “‘s” 也被滤掉了。

from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
words = [word for word in tokens if word.isalpha()]
print(tokens[:100])

8. 过滤掉没有深刻含义的 stop words：
在 stopwords.words('english') 可以查看这样的词表。

from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words = [w for w in words if not w in stop_words]
print(words[:100])

9. 转化成词根：
运行 porter.stem(word) 之后，单词会变成相应的词根形式，例如 “fishing,” “fished,” “fisher” 会变成 “fish”

from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in tokens]
print(stemmed[:100])

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

Alice嘟嘟

手记
篇

粉丝

75

获赞与收藏

280

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32930 372

网络编程入门教程

20个小节 13663 256

Pandas 入门教程

25个小节 20315 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

几种简单的文本数据预处理方法

阅读免费教程