nlp之加载电商评论集

目录

代码

python 复制代码
import pandas as pd

df = pd.read_csv("../data/Clothing Reviews.csv")
print(df.info())

df['Review Text'] = df['Review Text'].astype(str)
x_train = df['Review Text']
y_train = df['Rating']

from tensorflow.keras.preprocessing.text import Tokenizer

# 创建词典的索引,默认词典大小20000
dict_size = 20000
tokenizer = Tokenizer(num_words=dict_size)
# jieba: 停用词,标点符号,词性.....
tokenizer.fit_on_texts(x_train)
print(len(tokenizer.word_index), tokenizer.index_word)

# 把评论的文本转化序列编码
x_train_tokenized = tokenizer.texts_to_sequences(x_train)
print(x_train_tokenized)
for v in x_train_tokenized[:10]:
    print(v, len(v))

# 可以通过可视化方式展示评论的长度
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
matplotlib.use('TkAgg')

word_per_comment = [len(comment) for comment in x_train_tokenized]
plt.hist(word_per_comment, bins=np.arange(0, 200, 10))
plt.show()

# 通过指定长度,把不等长list转化为等长
from tensorflow.keras.preprocessing.sequence import pad_sequences

max_comment_length = 120
x_train = pad_sequences(x_train_tokenized, maxlen=max_comment_length)

for v in x_train[:10]:
    print(v, len(v))

代码解读

逐行解读这段代码。

python 复制代码
import pandas as pd

引入了pandas库,并以pd为别名。

python 复制代码
df = pd.read_csv("../data/Clothing Reviews.csv")

使用pandas的read_csv函数读取一个CSV文件,并将其保存到变量df中。

python 复制代码
print(df.info())

打印数据框df的信息,包括列名、非空值数量和数据类型。

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 23486 entries, 0 to 23485

Data columns (total 11 columns):
Column Non-Null Count Dtype


0 Unnamed: 0 23486 non-null int64

1 Clothing ID 23486 non-null int64

2 Age 23486 non-null int64

3 Title 19676 non-null object

4 Review Text 22641 non-null object

5 Rating 23486 non-null int64

6 Recommended IND 23486 non-null int64

7 Positive Feedback Count 23486 non-null int64

8 Division Name 23472 non-null object

9 Department Name 23472 non-null object

10 Class Name 23472 non-null object

python 复制代码
df['Review Text'] = df['Review Text'].astype(str)

将数据框df中的Review Text列的数据类型转换为字符串。

python 复制代码
x_train = df['Review Text']
y_train = df['Rating']

Review Text列分配给x_train,将Rating列分配给y_train

python 复制代码
from tensorflow.keras.preprocessing.text import Tokenizer

tensorflow.keras.preprocessing.text模块导入Tokenizer类。

python 复制代码
dict_size = 20000
tokenizer = Tokenizer(num_words=dict_size)

设置词典大小为20,000,并创建一个Tokenizer对象。

python 复制代码
tokenizer.fit_on_texts(x_train)

x_train上调用fit_on_texts方法,这样tokenizer就可以根据x_train中的文本构建词典。

python 复制代码
print(len(tokenizer.word_index), tokenizer.index_word)

打印词典中的词数量和词到索引的映射。

python 复制代码
x_train_tokenized = tokenizer.texts_to_sequences(x_train)

使用texts_to_sequences方法将x_train中的文本转化为整数序列,并保存到x_train_tokenized

python 复制代码
print(x_train_tokenized)

打印转化后的整数序列。

python 复制代码
for v in x_train_tokenized[:10]:
    print(v, len(v))

打印x_train_tokenized中前10个序列及其长度。

python 复制代码
import matplotlib.pyplot as plt
import matplotlib
import numpy as np

导入了matplotlib.pyplotmatplotlibnumpy库。

python 复制代码
matplotlib.use('TkAgg')

设置matplotlib使用的后端为TkAgg

python 复制代码
word_per_comment = [len(comment) for comment in x_train_tokenized]

计算每个评论的词数,并保存到word_per_comment列表中。

python 复制代码
plt.hist(word_per_comment, bins=np.arange(0, 200, 10))

绘制一个直方图,显示评论的词数分布。直方图的分箱范围是0到200,每10个单位一个分箱。

python 复制代码
plt.show()

显示上面绘制的直方图。

python 复制代码
from tensorflow.keras.preprocessing.sequence import pad_sequences

tensorflow.keras.preprocessing.sequence模块导入pad_sequences函数。

python 复制代码
max_comment_length = 120

设置评论的最大长度为120。

python 复制代码
x_train = pad_sequences(x_train_tokenized, maxlen=max_comment_length)

使用pad_sequences函数将x_train_tokenized中的序列填充或截断到长度为120。

python 复制代码
for v in x_train[:10]:
    print(v, len(v))

打印填充或截断后的前10个序列及其长度。

python 复制代码
print('ok')

打印ok,表示代码运行完毕。

总之,这段代码的主要目的是从CSV文件中读取文本评论,然后使用Tokenizer将文本转化为整数序列,并对这些序列进行填充或截断,以确保它们都有相同的长度。

相关推荐
拓端研究室40 分钟前
专题:2025AI产业全景洞察报告:企业应用、技术突破与市场机遇|附920+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·pdf
lumi.2 小时前
Vue + Element Plus 实现AI文档解析与问答功能(含详细注释+核心逻辑解析)
前端·javascript·vue.js·人工智能
m0_650108242 小时前
InstructBLIP:面向通用视觉语言模型的指令微调技术解析
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型
金融小师妹3 小时前
基于NLP语义解析的联储政策信号:强化学习框架下的12月降息概率回升动态建模
大数据·人工智能·深度学习·1024程序员节
AKAMAI5 小时前
提升 EdgeWorker 可观测性:使用 DataStream 设置日志功能
人工智能·云计算
银空飞羽5 小时前
让Trae CN SOLO自主发挥,看看能做出一个什么样的项目
前端·人工智能·trae
cg50176 小时前
基于 Bert 基本模型进行 Fine-tuned
人工智能·深度学习·bert
Dev7z6 小时前
基于Matlab图像处理的EAN条码自动识别系统设计与实现
图像处理·人工智能
Curvatureflight6 小时前
GPT-4o Realtime 之后:全双工语音大模型如何改变下一代人机交互?
人工智能·语言模型·架构·人机交互
6***x5456 小时前
C在机器学习中的ML.NET应用
人工智能·机器学习