首页慕课教程 TensorFlow 入门教程使用 Keras 进行文本分类

夜流歌 · 更新于 2020-09-14

使用 tf.keras 进行图片分类

使用 Keras 进行回归

使用 Keras 进行文本分类

上节课我们学习了如何进行图片分类，在此过程之中我们学习到了如何对图片数据进行处理；而对于文本数据我们应该如何处理与训练呢？与图片数据相比，文本数据有以下几个特点：

长度不确定；
语言之间的差异较大，编码方式各不相同；
同一种语言的处理方式也不尽相同；
特征提取方式不统一。

因为文本数据的不确定性，因此我们这节课采用最常用的数据处理方式（单词嵌入）与最常用的文本分类数据集（ IMBD® 评价数据集）。

1. 数据集合概览

IMDB® 数据集合一共包含 50000 条数据，每条数据都是从 IMDB® 电影的评价中选取，同时每个评论都被归类为**“正面评价”或“负面评价”**。比如：

x: [1, 778, 128, 74, 12, 630, 163, 15, 4, 1766, 7982, 1051, 2, 32, 85, 156, 45, 40, 148, 139, 121, 664, 665, 10, 10, 1361, 173, 4, 749, 2, 16, 3804, 8, 4, 226, 65, 12, 43, 127, 24, 2, 10, 10]

y: 0

其中评论是被编码之后所得到的数组，每个英文单词对应一个固定的数字。而标签用 0 和 1 来表示“负面评价”和“证明评价”。

将上述例子还原一下就是：

x: "begins better than it ends funny that the russian submarine crew <UNK> all other actors it's like those scenes where documentary shots br br spoiler part the message <UNK> was contrary to the whole story it just does not <UNK> br br"

y: "Negative"

这 50000 条数据它们具体的分布如下：

训练集包含 25000 条训练数据，其中正负数据各 12500 条；
测试集包含 25000 条测试数据，其中正负数据各 12500 条。

换句话说，该数据集合上面的数据是**“平衡的”**，因为它包含的正样本与负样本的数目相同。

在 TensorFlow 之中，我们可以直接通过调用内部 API 的方式来获取该数据集：

(train_data, train_labels), (test_data, test_labels) = \
tf.keras.datasets.imdb.load_data(num_words=words_num)

2. 如何对文本数据进行处理

在机器学习之中，我们对于文本数据的处理大致分为以下几步：

数据清洗，清理掉无用的数据；
文本编码，将每一个单词转化为一个数字来表示；
将编码后的文本转化为定长表示；
将文本提取为特征向量进行下一步的训练。

其中在这个例子之中，我们加载的数据集合已经由 TensorFlow 进行过数据清洗与文本编码了，因此我们只需要将其转化为定长表示并且提取其特征向量即可。

2.1 如何将文本数组填充到定长

在 TensorFlow 之中我们可以采用预处理的方式来将编码后的文本转化为定长：

train_data = tf.keras.preprocessing.sequence.pad_sequences(
            train_data,
            value=0,
            padding='post',
            maxlen=10
        )

其中的各个参数的解释如下：

trian_data：我们要处理的、编码后的数据；
maxlen：将每个文本样本处理后的长度，如果原长度不足 maxlen ，那么便会使用 value 进行填充；如果原长度超过了 maxlen ，那么便会将文本截断；
value：用来填充文本的数字，一般我们使用0即可；
padding：填充的模式，post 表示填充的 value 位置在原文之后。

我们举个简单的例子，如果处理前的文本数组为：

[1, 2, 3]

当我们使用上述方式填充之后的数据就会变为：

[1, 2, 3, 0, 0 ,0, 0, 0, 0, 0]

2.2 如何将文本数组进行嵌入并提取特征向向量

在 TensorFlow 之中，我们最常用的提取文本特征的网络层是：

tf.keras.layers.Embedding(vocab_size, dim),

其中 vocab_size 表示的是词汇量的总数，dim 表示特征向量的维度。

通过输入编码后的文本数组，我们可以得到该文本的特征向量（embedding vector）。

3. 模型的完整表示

当我们知道了如何对文本数据进行处理之后，我们便可以编写我们的文本分类模型的程序了。

具体的程序如下：

import tensorflow as tf
import numpy as np

# 定义基本参数
words_num = 10000
val_num = 12500
EPOCHS = 30
pad_max_length = 256
BATCH_SIZE = 64

# 获取数据
(train_data, train_labels), (test_data, test_labels) = tf.keras.datasets.imdb.load_data(num_words=words_num)
word_index = tf.keras.datasets.imdb.get_word_index()

# 添加特殊字符
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<pad>"] = 0
word_index["<start>"] = 1
word_index["<unknown>"] = 2
word_index["<unused>"] = 3

# 数据预处理
train_data = tf.keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=pad_max_length)
test_data = tf.keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=pad_max_length)

# 划分训练集合与验证集合
x_val, x_train = train_data[:val_num], train_data[val_num:]
y_val, y_train = train_labels[:val_num], train_labels[val_num:]

# 模型构建
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(words_num, 32),
    tf.keras.layers.GlobalAveragePooling1D(),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.summary()

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练
history = model.fit(x_train, y_train, epochs=EPOCHS,
          batch_size=BATCH_SIZE, validation_data=(x_val, y_val))

# 测试
results = model.evaluate(test_data, test_labels)

print(results)

在该程序之中有几个需要注意的地方：

在添加特殊字符字符处我们添加了四个特殊字符，其中
- 0 表示填充所使用的字符；
- 1 表示句子的开始；
- 2 表示未知单词，因为我们规定只使用 10000 个最常用的单词；
- 3 表示未使用的单词。
在划分验证集合的时候，我们按照 50% 的比例划分训练集合与验证集合；
在模型的第二层，我们采用了一维全局池化，该层没有可训练的参数，该层是为了降低训练所需要数据量，输出是一个固定长度的向量；
模型的最后一层的激活函数为 “Sigmoid” ，这个激活函数将输出分为 0 或者 1 ，通常用于二分类的任务。
在编译过程之中我们采用了**“二元交叉熵”（binary_crossentropy）**的损失函数，该损失函数通常用作二元分类问题
因为在数据处理过程中我们没有划分 Batch ，因此我们要在训练（fit）的过程之中来定义 Batch_Size。

4. 程序的结果

运行上面的程序，我们可以得到如下的输出：

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_4 (Embedding)      (None, None, 32)          320000    
_________________________________________________________________
global_average_pooling1d_3 ( (None, 32)                0         
_________________________________________________________________
dense_8 (Dense)              (None, 64)                2112      
_________________________________________________________________
dense_9 (Dense)              (None, 1)                 65        
=================================================================
Total params: 322,177
Trainable params: 322,177
Non-trainable params: 0
_________________________________________________________________
Epoch 1/30
196/196 [==============================] - 2s 10ms/step - loss: 0.6428 - accuracy: 0.6598 - val_loss: 0.5054 - val_accuracy: 0.8246
Epoch 2/30
196/196 [==============================] - 2s 10ms/step - loss: 0.3655 - accuracy: 0.8654 - val_loss: 0.3217 - val_accuracy: 0.8741
Epoch 3/30
196/196 [==============================] - 2s 10ms/step - loss: 0.2429 - accuracy: 0.9084 - val_loss: 0.2956 - val_accuracy: 0.8763
Epoch 4/30
196/196 [==============================] - 2s 10ms/step - loss: 0.1869 - accuracy: 0.9322 - val_loss: 0.2870 - val_accuracy: 0.8842
Epoch 5/30
196/196 [==============================] - 2s 10ms/step - loss: 0.1468 - accuracy: 0.9498 - val_loss: 0.2978 - val_accuracy: 0.8820
Epoch 6/30
196/196 [==============================] - 2s 10ms/step - loss: 0.1167 - accuracy: 0.9622 - val_loss: 0.3121 - val_accuracy: 0.8835
Epoch 7/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0915 - accuracy: 0.9737 - val_loss: 0.3375 - val_accuracy: 0.8786
Epoch 8/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0720 - accuracy: 0.9805 - val_loss: 0.3668 - val_accuracy: 0.8784
Epoch 9/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0558 - accuracy: 0.9870 - val_loss: 0.3917 - val_accuracy: 0.8747
Epoch 10/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0437 - accuracy: 0.9924 - val_loss: 0.4241 - val_accuracy: 0.8729
Epoch 11/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0345 - accuracy: 0.9946 - val_loss: 0.4539 - val_accuracy: 0.8696
Epoch 12/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0272 - accuracy: 0.9956 - val_loss: 0.4948 - val_accuracy: 0.8703
Epoch 13/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0201 - accuracy: 0.9974 - val_loss: 0.5199 - val_accuracy: 0.8679
Epoch 14/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0150 - accuracy: 0.9984 - val_loss: 0.5517 - val_accuracy: 0.8662
Epoch 15/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0122 - accuracy: 0.9987 - val_loss: 0.5818 - val_accuracy: 0.8646
Epoch 16/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0098 - accuracy: 0.9991 - val_loss: 0.6114 - val_accuracy: 0.8642
Epoch 17/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0080 - accuracy: 0.9993 - val_loss: 0.6514 - val_accuracy: 0.8632
Epoch 18/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0063 - accuracy: 0.9996 - val_loss: 0.6680 - val_accuracy: 0.8621
Epoch 19/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0047 - accuracy: 0.9997 - val_loss: 0.6967 - val_accuracy: 0.8620
Epoch 20/30
196/196 [==============================] - 2s 11ms/step - loss: 0.0039 - accuracy: 0.9998 - val_loss: 0.7308 - val_accuracy: 0.8611
Epoch 21/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0027 - accuracy: 1.0000 - val_loss: 0.7511 - val_accuracy: 0.8608
Epoch 22/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0023 - accuracy: 0.9999 - val_loss: 0.7780 - val_accuracy: 0.8601
Epoch 23/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0018 - accuracy: 1.0000 - val_loss: 0.8057 - val_accuracy: 0.8590
Epoch 24/30
196/196 [==============================] - 2s 10ms/step - loss: 0.0016 - accuracy: 0.9999 - val_loss: 0.8214 - val_accuracy: 0.8606
Epoch 25/30
196/196 [==============================] - 2s 11ms/step - loss: 0.0012 - accuracy: 1.0000 - val_loss: 0.8376 - val_accuracy: 0.8602
Epoch 26/30
196/196 [==============================] - 2s 11ms/step - loss: 0.0010 - accuracy: 1.0000 - val_loss: 0.8689 - val_accuracy: 0.8592
Epoch 27/30
196/196 [==============================] - 2s 12ms/step - loss: 8.3966e-04 - accuracy: 1.0000 - val_loss: 0.8716 - val_accuracy: 0.8592
Epoch 28/30
196/196 [==============================] - 2s 10ms/step - loss: 7.2445e-04 - accuracy: 1.0000 - val_loss: 0.8918 - val_accuracy: 0.8588
Epoch 29/30
196/196 [==============================] - 2s 12ms/step - loss: 6.1936e-04 - accuracy: 1.0000 - val_loss: 0.9143 - val_accuracy: 0.8591
Epoch 30/30
196/196 [==============================] - 2s 10ms/step - loss: 5.2330e-04 - accuracy: 1.0000 - val_loss: 0.9336 - val_accuracy: 0.8596
782/782 [==============================] - 1s 2ms/step - loss: 0.9893 - accuracy: 0.8468
[0.9892528653144836, 0.8467599749565125]

由此可以看到，我们的网络最终在测试集合上达到了 84.68% 的准确率，同时它的损失为 0.9893 。

5. 小结

在这节课之中，我们学会了如何在机器学习之中处理文本数据，同时了解了对文本进行分类的基本步骤。

通过自己的动手实现，我们实现了一个分类准确率接近 85% 的文本分类器。

图片描述

使用 tf.keras 进行图片分类

使用 Keras 进行回归

我要提出意见反馈

热搜

最近搜索 清空

我的购物车

已加入门课程

购物车里空空如也

TensorFlow 入门教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程

最近搜索清空