10 Python 中的生成器趣味实践_Python 进阶应用教程-慕课网

首页慕课教程 Python 进阶应用教程 10 Python 中的生成器趣味实践

朱广蔚 · 更新于 2020-05-07

09 Python 中的生成器实现原理

11 Python 中的错误和异常

1. 遍历文本文件中的单词

假设存在文本文件 test.txt，内容如下：

The Zen of Python

Beautiful is better than ugly

Simple is better than complex

注意文件包含有空行，要求完成如下任务：

统计文件有多少个单词
统计文件中每个单词出现的频率

2. 直接遍历的方法

请参考词条 “Python 中的迭代器趣味实践” 的第 2 小节，通过直接遍历文件中单词的方式实现 “统计单词的个数” 和 “统计单词的出现频率”。

2.1 优点

直接遍历的方式的优点在于代码简单，框架代码如下：

file = open('test.txt')

while True:
    line = file.readline()
    if not line:
        break

    words = line.split() 
    for word in words:
        处理 word

在第 4 行，读取文件的每一行
在第 8 行，将文件的一行分割为多个单词
在第 10 行，对当前正在遍历的单词进行处理

2.2 缺点

直接遍历的方式的缺点在于代码重复，实现 “统计单词个数” 和 “统计单词出现频率” 这两个功能需求时，遍历单词的框架代码是重复的。

3. 基于迭代器的方法

请参考词条 “Python 中的迭代器趣味实践” 的第 3 小节和第 4 小节，通过基于迭代器的方式实现 “统计单词的个数” 和 “统计单词的出现频率”。

3.1 优点

使用迭代器的方式的优点在于遍历单词的代码简单，使用如下代码：

for word in IterateWord(file):
    处理 word

即可对文件中所有的单词进行遍历。

3.2 缺点

使用迭代器的方式的缺点在于迭代器的实现较为复杂，相比之下，直接遍历的框架代码则非常简单直观。在下面的小节中，我们基于生成器简化迭代器的实现。

4. 基于生成器的方法

4.1 实现生成器

本小节使用生成器实现遍历文件中所有的单词，代码如下：

def generateWord(file):
    while True:
        line = file.readline()
        if not line:
            break

        words = line.split() 
        for word in words:
            yield word

在第 1 行，定义生成器函数 generateWord，遍历文件 file 中的单词
在第 3 行，读取文件的一行
- 在第 4 行，如果 not line 为真，则表示读取文件结束，使用 break 退出
在第 7 行，把 line 切割为多个单词
在第 8 行，遍历列表 words
- 在第 9 行，使用 yield 关键字返回当前正在遍历的单词

4.2 统计单词的个数

file = open('test.txt')

count = 0
for word in generateWord(file):
    print(word)
    count = count + 1

在第 1 行，打开文件 test.txt
在第 2 行，变量 count 用于记录文件中单词的个数
在第 4 行，遍历文件中的每一个单词
- 在第 5 行，打印当前遍历的单词
- 在第 6 行，统计单词个数

程序运行输出结果如下：

The
Zen
of
Python
Beautiful
is
better
than
ugly
Simple
is
better
than
complex
count = 14

4.3 统计单词的出现频率

file = open('test.txt')
dict = {}

for word in generateWord(file):
    if word in dict:
        dict[word] += 1
    else:
        dict[word] = 1

for word,count in dict.items():
    print('%s: %d' % (word, count))

在第 1 行，打开文件 test.txt，变量 file 标识已经打开的文件
在第 4 行，遍历每一行文本的单词
- 在第 5 行，如果 word 已经存在于 dict 中
  - 则在第 5 行，该单词出现的次数加 1
- 在第 7 行，如果 word 不存在于 dict 中
  - 则在第 8 行，该单词出现的次数初始化为 1
在第 10 行，打印 dict 的键和值

程序运行输出结果如下：

The: 1
Zen: 1
of: 1
Python: 1
Beautiful: 1
is: 2
better: 2
than: 2
ugly: 1
Simple: 1
complex: 1

结果表明：

单词 is better than 出现了 2 次
其它单词出现了 1 次

4.4 总结

与 “直接遍历” 和 “通过迭代器遍历” 这两种方式相比，基于生成器的方法由如下优点：

4.4.1 实现生成器简单

实现生成器的函数 generateWord 的逻辑简单直观，代码如下：

def generateWord(file):
    while True:
        line = file.readline()
        if not line:
            break

        words = line.split() 
        for word in words:
            yield word

首先，函数依次读取文件的每一行
然后，再把读取的行切割成单词
最后，遍历单词

4.4.2 使用生成器简单

通过 for 循环即可遍历文件中的单词，generateWord 隐藏了各种实现细节，代码如下：

for word in generateWord(file):
    处理 word

09 Python 中的生成器实现原理

11 Python 中的错误和异常

我要提出意见反馈

热搜

最近搜索 清空

我的购物车

已加入门课程

购物车里空空如也

Python 进阶应用教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程

最近搜索清空