中文社交媒体情感分析实战：基于B站评论的机器学习与深度学习对比

一、实验背景与目标

在中文社交媒体爆炸式增长的今天，用户评论中蕴含的情感倾向成为洞察用户需求、优化内容策略的核心数据。本次实验以B站评论数据集为研究对象，系统完成从数据采集清洗到模型部署评估的全流程情感分析，核心目标如下：

熟悉中文社交媒体数据处理的完整流程，兼顾数据质量与伦理规范
掌握中文文本预处理核心技术（分词、去噪、特征工程）的工程实现
对比传统机器学习与深度学习模型在情感分析任务中的性能差异
构建多维度模型评估体系，实现结果可视化与业务洞察转化
形成可复用的中文情感分析方案，为实际业务场景提供参考

二、实验环境准备

1. 硬件配置

基础配置：普通计算机（CPU:i7-10750H，内存:16GB）
加速方案：支持CUDA的NVIDIA GPU（可选，用于深度学习模型微调）

2. 软件与库依赖

类别	核心工具/库	用途说明
基础环境	Python 3.8+, Anaconda, PyCharm	开发环境与包管理
数据处理	pandas, numpy	数据加载、清洗与转换
文本处理	jieba, re	中文分词与正则去噪
机器学习	scikit-learn	传统模型训练与评估
深度学习	PyTorch, transformers	BERT模型微调（可选）
可视化	matplotlib, seaborn, wordcloud	结果可视化与特征展示
辅助工具	tqdm	进度条显示

三、数据处理全流程

1. 数据集介绍

本次实验采用B站公开评论数据集（BiliBiliComments.csv），包含10380条有效评论，核心字段如下：

评论内容：用户原始评论文本（核心分析对象）
点赞数：评论互动热度指标
评论时间：发布时间戳（用于时间趋势分析）
类别：情感标签（-1=负面，0=中性，1=正面）
视频标题/网址：评论所属内容上下文

2. 数据清洗：去噪与标准化

数据质量直接决定模型上限，清洗流程聚焦三大核心问题：

python 复制代码

import pandas as pd
import re

# 1. 数据加载与去重
df = pd.read_csv('BiliBiliComments.csv')
print(f"✅ 成功加载数据，共 {len(df)} 条评论")
df_clean = df.drop_duplicates('评论内容', keep='first')
print(f"✅ 去重处理：原始数据 {len(df)} 条 → 去重后 {len(df_clean)} 条")

# 2. 文本去噪函数（保留中文，移除噪声）
def clean_text(text):
    if pd.isna(text):
        return ""
    text = str(text)
    # 移除非中文字符、数字、特定无关词汇
    cleaned = re.sub('[^\u4E00-\u9FD5]|[0-9]|\\s|\\t|天问一号|天问1号|天问|胖5|时分', '', text)
    return cleaned

df_clean['评论内容'] = df_clean['评论内容'].apply(clean_text)
print("✅ 完成特殊字符清理")

3. 中文分词与停用词过滤

python 复制代码

import jieba

# 1. 精确模式分词
def chinese_word_cut(mytext):
    if not mytext or len(mytext.strip()) == 0:
        return []
    return jieba.lcut(mytext)

df_clean['cutted_content'] = df_clean['评论内容'].apply(chinese_word_cut)
print("✅ 完成中文分词")

# 2. 停用词加载与过滤
def get_custom_stopwords(stop_words_file):
    try:
        with open(stop_words_file, 'r', encoding='UTF-8') as f:
            stopwords = f.read().split('\n')
        return [word.strip() for word in stopwords if word.strip()]
    except FileNotFoundError:
        print(f"⚠️ 停用词文件 {stop_words_file} 未找到，跳过停用词过滤")
        return []

stopwords = get_custom_stopwords('stopwordsHIT.txt')
if stopwords:
    df_clean['cutted_content'] = df_clean['cutted_content'].apply(
        lambda x: [i for i in x if i not in stopwords and len(i) > 1]  # 过滤停用词+单字词
    )
print(f"✅ 完成停用词过滤，使用停用词{len(stopwords)}个")

四、特征工程与模型构建

1. TF-IDF特征构建

将分词后的文本转换为机器学习可识别的数值特征，兼顾单字与词组关联：

python 复制代码

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split

# 1. 词语列表转字符串（适配TF-IDF输入格式）
def join_words(words):
    if isinstance(words, list):
        return ' '.join(words)
    return str(words) if pd.notna(words) else ""

df_clean['cutted_content_str'] = df_clean['cutted_content'].apply(join_words)

# 2. TF-IDF特征提取（1-gram+2-gram）
tfidf_vect = TfidfVectorizer(
    analyzer='word',
    max_features=5000,  # 保留Top5000高频特征
    ngram_range=(1, 2)  # 捕捉单字与词组特征
)
X_tfidf = tfidf_vect.fit_transform(df_clean['cutted_content_str'])
feature_names = tfidf_vect.get_feature_names_out()
print(f"✅ TF-IDF特征维度: {X_tfidf.shape}")
print(f"🔤 前10个特征词: {feature_names[:10]}")

2. 数据集划分与模型选型

采用70%/15%/15%的比例划分训练集/验证集/测试集，确保数据分布均衡：

python 复制代码

# 数据划分（分层抽样保证情感分布一致）
X = X_tfidf
y = df_clean['类别']
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.15, random_state=42, stratify=y
)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.176, random_state=42, stratify=y_temp
)

# 模型初始化（传统机器学习三选一对比）
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# 基线模型：朴素贝叶斯（快速收敛，适合文本分类）
model_nb = MultinomialNB(alpha=1.0)

# 集成模型：随机森林（处理非线性关系）
model_rf = RandomForestClassifier(
    n_estimators=100,
    max_depth=20,
    random_state=42,
    n_jobs=-1
)

# 强分类器：支持向量机（高维特征下表现优异）
model_svm = SVC(
    kernel='linear',
    C=1.0,
    random_state=42
)

# 模型训练
model_nb.fit(X_train, y_train)
model_rf.fit(X_train, y_train)
model_svm.fit(X_train, y_train)

3. 深度学习模型（可选加分项）

基于Hugging Face Transformers微调中文BERT：

python 复制代码

from transformers import BertTokenizer, BertForSequenceClassification
import torch

# 1. 加载中文BERT预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model_bert = BertForSequenceClassification.from_pretrained(
    'bert-base-chinese',
    num_labels=3  # 三分类（负面/中性/正面）
)

# 2. 数据预处理（适配BERT输入格式）
def bert_tokenize(texts, max_len=32):
    return tokenizer(
        texts,
        padding='max_length',
        truncation=True,
        max_length=max_len,
        return_tensors='pt'
    )

# 3. 训练流程（略，需配合PyTorch训练框架）

五、模型评估与优化

1. 多维度评估指标

python 复制代码

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# 评估函数（加权平均适配不平衡数据）
def evaluate_model(y_true, y_pred, model_name):
    accuracy = accuracy_score(y_true, y_pred)
    precision = precision_score(y_true, y_pred, average='weighted', zero_division=0)
    recall = recall_score(y_true, y_pred, average='weighted', zero_division=0)
    f1 = f1_score(y_true, y_pred, average='weighted', zero_division=0)
    print(f"\n{model_name} 性能:")
    print(f"准确率: {accuracy:.4f} | 精确率: {precision:.4f}")
    print(f"召回率: {recall:.4f} | F1分数: {f1:.4f}")
    return [model_name, accuracy, precision, recall, f1]

# 模型预测与评估
y_pred_nb = model_nb.predict(X_test)
y_pred_rf = model_rf.predict(X_test)
y_pred_svm = model_svm.predict(X_test)

results = [
    evaluate_model(y_test, y_pred_nb, "朴素贝叶斯(基线)"),
    evaluate_model(y_test, y_pred_rf, "随机森林"),
    evaluate_model(y_test, y_pred_svm, "支持向量机")
]

2. 模型性能对比

模型	准确率	精确率	召回率	F1-score
朴素贝叶斯(基线)	0.6881	0.6555	0.6881	0.6713
随机森林	0.6674	0.6228	0.6674	0.6408
支持向量机	0.7089	0.6857	0.7089	0.6943

3. 超参数优化（以朴素贝叶斯为例）

python 复制代码

from sklearn.model_selection import GridSearchCV

# 参数网格设置
param_grid = {
    'alpha': [0.1, 0.5, 1.0, 1.5, 2.0],  # 平滑参数
    'fit_prior': [True, False]  # 是否学习先验概率
}

# 网格搜索（5折交叉验证）
grid_search = GridSearchCV(
    MultinomialNB(),
    param_grid,
    cv=5,
    scoring='f1_weighted',
    n_jobs=-1,
    verbose=1
)
grid_search.fit(X_train, y_train)

print(f"最佳参数: {grid_search.best_params_}")
best_nb = grid_search.best_estimator_
y_pred_nb_opt = best_nb.predict(X_test)
evaluate_model(y_test, y_pred_nb_opt, "朴素贝叶斯(优化)")

4. 混淆矩阵可视化

python 复制代码

import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.font_manager import FontProperties

# 解决中文显示问题
my_font = FontProperties(fname='SimHei.ttf')

# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred_nb)
plt.figure(figsize=(8, 6))
sns.heatmap(
    conf_matrix,
    annot=True,
    fmt='d',
    cmap='Blues',
    xticklabels=['负面评论', '中性评论', '正面评论'],
    yticklabels=['负面评论', '中性评论', '正面评论'],
    fontproperties=my_font
)
plt.xlabel('预测标签', fontproperties=my_font, fontsize=12)
plt.ylabel('真实标签', fontproperties=my_font, fontsize=12)
plt.title('朴素贝叶斯模型 - 混淆矩阵（测试集）', fontproperties=my_font, fontsize=14)
plt.tight_layout()
plt.savefig('混淆矩阵热力图.png', dpi=300, bbox_inches='tight')
plt.show()