Day31_【 NLP _1.文本预处理 _(3)文本数据分析】

目录:

  • 文本数据分析

    • 标签数量分布

    • 句子长度分布

    • 正负样本散点图

    • 不同词汇总数统计

    • 关键词词云

文本数据分析:主要是利用画图API进行画图分析

以下为代码示例:

API

复制代码
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

一、标签数量分布

复制代码
sns.countplot(x="label", data=train_df)

二、句子长度分布

复制代码
# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)

三、正负样本散点图

复制代码
# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')

四、不同词汇总数统计

复制代码
# map(func,iterable) :对每个iterable进行func处理,返回的是一个迭代器
# * :解包(只解最外层)
# chain :将多个可迭代对象解包再拼接成一个可迭代对象
# set :转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))

五、关键词词云

复制代码
wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)
相关推荐
啊阿狸不会拉杆4 小时前
《机器学习导论》第 5 章-多元方法
人工智能·python·算法·机器学习·numpy·matplotlib·多元方法
薯一个蜂蜜牛奶味的愿4 小时前
模块化显示神经网络结构的可视化工具--BlockShow
人工智能·深度学习·神经网络
班德先生4 小时前
深耕多赛道品牌全案策划,为科技与时尚注入商业表达力
大数据·人工智能·科技
哈__4 小时前
CANN加速强化学习推理:策略网络与价值网络优化
人工智能
慢半拍iii4 小时前
ops-nn性能调优实战:提升神经网络推理速度的秘诀
人工智能·神经网络·ai·cnn·cann
hay_lee4 小时前
Spring AI实现对话聊天-流式输出
java·人工智能·ollama·spring ai
塔中妖4 小时前
CANN深度解读:从算子库看AI计算的底层架构
人工智能·架构
铁蛋AI编程实战4 小时前
MemoryLake 实战:构建超长对话 AI 助手的完整代码教程
人工智能·python·microsoft·机器学习
weixin_549808364 小时前
2026 中国 AI 招聘系统市场观察:从效率工具到智能体协同,招聘正被重新定义
人工智能
张较瘦_5 小时前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习