【AI】从零开始的文本分类模型实战：从数据到部署的全流程指南

在人工智能迅猛发展的今天，文本分类作为自然语言处理（NLP）领域的基础任务，在情感分析、垃圾邮件识别、新闻分类等诸多场景中都有着广泛的应用。本文将以 "电商评论情感分析" 为具体案例，带大家进行一次完整的文本分类模型实战。从数据获取与预处理，到模型构建、训练、评估，再到最后的模型部署，每个环节都会详细讲解并附上可运行的代码，让即使是初学者也能轻松跟上节奏，亲身体验从 0 到 1 构建一个文本分类模型的全过程。

一、项目背景与目标

在电商行业蓬勃发展的当下，用户的评论数据蕴含着巨大的价值。这些评论中包含了用户对商品的真实感受和评价，商家可以通过分析这些评论了解用户的需求和意见，从而改进产品和服务；而对于其他消费者来说，这些评论也能为他们的购买决策提供重要参考。

本次实战项目的目标就是构建一个能够对电商评论进行情感分析的文本分类模型。具体来说，就是要让模型能够自动判断一条电商评论是正面的还是负面的，实现对评论情感的二分类。通过这个项目，我们不仅能掌握文本分类模型的构建方法，还能将其应用到实际的业务场景中，发挥模型的实用价值。

二、环境准备

在开始项目之前，我们需要先准备好相应的开发环境。本次实战将使用 Python 作为开发语言，主要用到以下几个库：

pandas：用于数据处理和分析

numpy：用于数值计算

scikit - learn：提供了丰富的机器学习算法和工具，用于数据预处理、模型训练和评估等

tensorflow/keras：用于构建和训练深度学习模型

jieba：用于中文文本分词

flask：用于模型部署，搭建简单的 Web 服务

下面是环境安装的代码：

TypeScript 复制代码

# 安装所需库

pip install pandas numpy scikit-learn tensorflow jieba flask

安装完成后，我们就可以导入这些库，开始项目的后续工作了。


# 导入库

import pandas as pd

import numpy as np

import jieba

import re

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Dropout, Embedding, LSTM, SpatialDropout1D

from tensorflow.keras.preprocessing.text import Tokenizer

from tensorflow.keras.preprocessing.sequence import pad_sequences

from tensorflow.keras.utils import to_categorical

from tensorflow.keras.callbacks import EarlyStopping

import flask

from flask import request, jsonify

三、数据获取与探索

3.1 数据获取

本次实战使用的电商评论数据可以从公开的数据集平台获取，比如 Kaggle、天池等。这里我们假设已经获取了一份包含评论内容和对应情感标签的数据集，数据集的格式为 CSV，包含 "comment" 和 "sentiment" 两列，其中 "comment" 是评论内容，"sentiment" 是情感标签，取值为 "positive"（正面）或 "negative"（负面）。

我们可以使用 pandas 库来读取数据集：

TypeScript 复制代码

# 读取数据集

data = pd.read_csv('ecommerce_comments.csv')

3.2 数据探索

数据探索是了解数据特征的重要步骤，通过数据探索我们可以知道数据的基本情况，比如数据量、数据分布等，为后续的数据预处理和模型构建提供依据。

TypeScript 复制代码

# 查看数据的前5行

print(data.head())

# 查看数据的形状（行数和列数）

print('数据形状：', data.shape)

# 查看情感标签的分布情况

print('情感标签分布：')

print(data['sentiment'].value_counts())

# 查看评论内容的长度分布

data['comment_length'] = data['comment'].apply(lambda x: len(x))

print('评论长度描述统计：')

print(data['comment_length'].describe())

# 绘制评论长度的直方图

import matplotlib.pyplot as plt

plt.hist(data['comment_length'], bins=50)

plt.xlabel('评论长度')

plt.ylabel('频数')

plt.title('评论长度分布直方图')

plt.show()

通过以上代码，我们可以了解到数据集的基本情况。比如，数据集中有多少条评论，正面和负面评论的比例如何，评论内容的长度大致在什么范围等。如果发现数据分布不均衡，比如正面评论远多于负面评论，我们可能需要在后续的数据预处理中进行相应的处理，如过采样、欠采样等。

四、数据预处理

数据预处理是文本分类任务中非常关键的一步，直接影响模型的性能。文本数据通常包含大量的噪声，需要进行清洗、分词等处理，将其转化为模型能够理解的数值形式。

4.1 文本清洗

文本清洗的目的是去除文本中的噪声，比如特殊符号、数字、标点符号等，只保留有意义的汉字。

复制代码

TypeScript 复制代码

# 定义文本清洗函数

def clean_text(text):

# 去除特殊符号和数字

text = re.sub(r'[^\u4e00-\u9fa5]', ' ', text)

# 去除多余的空格

text = re.sub(r'\s+', ' ', text).strip()

return text

# 对评论内容进行清洗

data['cleaned_comment'] = data['comment'].apply(clean_text)

4.2 分词

由于中文文本不像英文文本那样有天然的分隔符，所以需要进行分词处理，将连续的汉字序列切分成一个个独立的词语。这里我们使用 jieba 库进行分词。

复制代码

TypeScript 复制代码

# 定义分词函数

def segment_text(text):

# 分词

words = jieba.cut(text)

# 过滤掉长度为1的词语（可选）

words = [word for word in words if len(word) > 1]

# 拼接成字符串，用空格分隔

return ' '.join(words)

# 对清洗后的评论进行分词

data['segmented_comment'] = data['cleaned_comment'].apply(segment_text)

4.3 标签编码

情感标签是文本型的（"positive" 和 "negative"），我们需要将其转化为数值型，方便模型处理。这里我们使用 LabelEncoder 进行编码，将 "positive" 编码为 1，"negative" 编码为 0。

TypeScript 复制代码

# 标签编码

label_encoder = LabelEncoder()

data['label'] = label_encoder.fit_transform(data['sentiment'])

4.4 数据集划分

我们需要将数据集划分为训练集和测试集，其中训练集用于模型训练，测试集用于评估模型的性能。通常我们将 70% - 80% 的数据作为训练集，其余的数据作为测试集。

TypeScript 复制代码

# 划分训练集和测试集

X = data['segmented_comment']

y = data['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

这里使用了 stratify=y 参数，确保训练集和测试集中情感标签的分布与原始数据集一致。

4.5 特征提取

文本数据经过分词后，还是字符串形式，我们需要将其转化为数值型的特征向量。常用的特征提取方法有词袋模型（Bag of Words）、TF - IDF 等。这里我们使用 TF - IDF 进行特征提取。

TypeScript 复制代码

# TF-IDF特征提取

tfidf_vectorizer = TfidfVectorizer(max_features=5000) # 只保留出现频率最高的5000个词

X_train_tfidf = tfidf_vectorizer.fit_transform(X_train).toarray()

X_test_tfidf = tfidf_vectorizer.transform(X_test).toarray()

max_features=5000 表示只保留出现频率最高的 5000 个词，这样可以减少特征维度，提高模型的训练速度。

五、模型构建与训练

在文本分类任务中，常用的模型有朴素贝叶斯、支持向量机（SVM）、逻辑回归以及深度学习模型（如 LSTM、CNN 等）。本节我们将分别构建一个基于逻辑回归的机器学习模型和一个基于 LSTM 的深度学习模型，并进行训练。

5.1 逻辑回归模型

逻辑回归是一种简单而有效的分类算法，在文本分类任务中经常被使用。

TypeScript 复制代码

# 构建逻辑回归模型

from sklearn.linear_model import LogisticRegression

lr_model = LogisticRegression(max_iter=1000)

lr_model.fit(X_train_tfidf, y_train)

5.2 LSTM 模型

LSTM（长短期记忆网络）是一种特殊的循环神经网络（RNN），能够很好地处理序列数据，在 NLP 任务中表现出色。

由于 LSTM 模型需要输入的是序列数据，而我们之前使用 TF - IDF 提取的是特征向量，不太适合 LSTM。所以我们需要使用 Tokenizer 对文本进行处理，将其转化为序列。

TypeScript 复制代码

# 文本序列处理

tokenizer = Tokenizer(num_words=5000) # 只保留出现频率最高的5000个词

tokenizer.fit_on_texts(X_train)

X_train_seq = tokenizer.texts_to_sequences(X_train)

X_test_seq = tokenizer.texts_to_sequences(X_test)

# 序列填充，使所有序列长度一致

max_sequence_length = 100 # 序列的最大长度

X_train_pad = pad_sequences(X_train_seq, maxlen=max_sequence_length)

X_test_pad = pad_sequences(X_test_seq, maxlen=max_sequence_length)

# 构建LSTM模型

embedding_dim = 128

lstm_model = Sequential()

lstm_model.add(Embedding(input_dim=5000, output_dim=embedding_dim, input_length=max_sequence_length))

lstm_model.add(SpatialDropout1D(0.2))

lstm_model.add(LSTM(units=64, dropout=0.2, recurrent_dropout=0.2))

lstm_model.add(Dense(units=1, activation='sigmoid'))

# 编译模型

lstm_model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 打印模型结构

lstm_model.summary()

# 训练模型

early_stopping = EarlyStopping(monitor='val_loss', patience=3, mode='min') # 早停法，防止过拟合

history = lstm_model.fit(X_train_pad, y_train, batch_size=32, epochs=20, validation_data=(X_test_pad, y_test), callbacks=[early_stopping])

六、模型评估

模型训练完成后，我们需要在测试集上对模型进行评估，了解模型的性能。常用的评估指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 值等。

6.1 逻辑回归模型评估

TypeScript 复制代码

# 逻辑回归模型预测

y_pred_lr = lr_model.predict(X_test_tfidf)

# 计算准确率

accuracy_lr = accuracy_score(y_test, y_pred_lr)

print('逻辑回归模型准确率：', accuracy_lr)

# 打印分类报告

print('逻辑回归模型分类报告：')

print(classification_report(y_test, y_pred_lr))

# 打印混淆矩阵

print('逻辑回归模型混淆矩阵：')

print(confusion_matrix(y_test, y_pred_lr))

6.2 LSTM 模型评估

TypeScript 复制代码

# LSTM模型预测

y_pred_lstm_prob = lstm_model.predict(X_test_pad)

y_pred_lstm = (y_pred_lstm_prob > 0.5).astype(int).flatten()

# 计算准确率

accuracy_lstm = accuracy_score(y_test, y_pred_lstm)

print('LSTM模型准确率：', accuracy_lstm)

# 打印分类报告

print('LSTM模型分类报告：')

print(classification_report(y_test, y_pred_lstm))

# 打印混淆矩阵

print('LSTM模型混淆矩阵：')

print(confusion_matrix(y_test, y_pred_lstm))

通过对比两个模型的评估指标，我们可以看出哪个模型的性能更好。一般来说，在文本分类任务中，LSTM 等深度学习模型的性能会优于传统的机器学习模型，但训练成本也更高。

6.3 模型结果可视化

为了更直观地了解模型的训练过程和性能，我们可以对模型的训练损失和准确率进行可视化。

TypeScript 复制代码

# 绘制LSTM模型的训练损失和验证损失曲线

plt.plot(history.history['loss'], label='训练损失')

plt.plot(history.history['val_loss'], label='验证损失')

plt.xlabel('Epoch')

plt.ylabel('Loss')

plt.title('LSTM模型训练损失和验证损失曲线')

plt.legend()

plt.show()

# 绘制LSTM模型的训练准确率和验证准确率曲线

plt.plot(history.history['accuracy'], label='训练准确率')

plt.plot(history.history['val_accuracy'], label='验证准确率')

plt.xlabel('Epoch')

plt.ylabel('Accuracy')

plt.title('LSTM模型训练准确率和验证准确率曲线')

plt.legend()

plt.show()

通过这些曲线，我们可以判断模型是否存在过拟合或欠拟合的情况。如果训练损失不断下降，而验证损失却开始上升，说明模型出现了过拟合。

七、模型优化

如果模型的性能不理想，我们可以进行模型优化。常用的优化方法有：

调整模型参数：比如逻辑回归的正则化参数、LSTM 的隐藏层单元数、学习率等。

增加特征维度：可以适当增加 TF - IDF 保留的词的数量，或者使用词向量（如 Word2Vec、GloVe）作为特征。

数据增强：对于文本数据，可以进行同义词替换、随机插入、随机删除等操作，增加训练数据量。

集成学习：将多个模型的预测结果进行融合，提高模型的性能。

下面以调整 LSTM 模型的隐藏层单元数为例，进行模型优化：

复制代码

TypeScript 复制代码

# 调整LSTM模型的隐藏层单元数

lstm_model_optimized = Sequential()

lstm_model_optimized.add(Embedding(input_dim=5000, output_dim=embedding_dim, input_length=max_sequence_length))

lstm_model_optimized.add(SpatialDropout1D(0.2))

lstm_model_optimized.add(LSTM(units=128, dropout=0.2, recurrent_dropout=0.2)) # 将隐藏层单元数从64调整为128

lstm_model_optimized.add(Dense(units=1, activation='sigmoid'))

# 编译模型

lstm_model_optimized.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 训练模型

history_optimized = lstm_model_optimized.fit(X_train_pad, y_train, batch_size=32, epochs=20, validation_data=(X_test_pad, y_test), callbacks=[early_stopping])

# 评估优化后的LSTM模型

y_pred_lstm_optimized_prob = lstm_model_optimized.predict(X_test_pad)

y_pred_lstm_optimized = (y_pred_lstm_optimized_prob > 0.5).astype(int).flatten()

accuracy_lstm_optimized = accuracy_score(y_test, y_pred_lstm_optimized)

print('优化后的LSTM模型准确率：', accuracy_lstm_optimized)

八、模型部署

模型训练好之后，我们需要将其部署到实际应用中，让用户能够方便地使用。这里我们使用 flask 搭建一个简单的 Web 服务，实现对电商评论情感的在线预测。

8.1 保存模型

首先，我们需要将训练好的模型和相关的预处理工具保存下来，以便在部署时使用。

TypeScript 复制代码

# 保存逻辑回归模型

import joblib

joblib.dump(lr_model, 'lr_model.pkl')

joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.pkl')

joblib.dump(label_encoder, 'label_encoder.pkl')

# 保存LSTM模型

lstm_model.save('lstm_model.h5')

import json

with open('tokenizer_config.json', 'w', encoding='utf-8') as f:

json.dump(tokenizer.get_config(), f, ensure_ascii=False)

8.2 搭建 Web 服务

使用 flask 搭建 Web 服务，实现接收用户输入的评论内容，调用模型进行预测，并返回预测结果的功能。

TypeScript 复制代码

# 加载模型和预处理工具

lr_model = joblib.load('lr_model.pkl')

tfidf_vectorizer = joblib.load('tfidf_vectorizer.pkl')

label_encoder = joblib.load('label_encoder.pkl')

from tensorflow.keras.models import load_model

lstm_model = load_model('lstm_model.h5')

from tensorflow.keras.preprocessing.text import tokenizer_from_json

with open('tokenizer_config.json', 'r', encoding='utf-8') as f:

tokenizer_config = json.load(f)

tokenizer = tokenizer_from_json(tokenizer_config)

# 创建flask应用

app = flask.Flask(__name</doubaocanvas>