Day31_【 NLP _1.文本预处理 _(3)文本数据分析】

目录:

  • 文本数据分析

    • 标签数量分布

    • 句子长度分布

    • 正负样本散点图

    • 不同词汇总数统计

    • 关键词词云

文本数据分析:主要是利用画图API进行画图分析

以下为代码示例:

API

复制代码
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

一、标签数量分布

复制代码
sns.countplot(x="label", data=train_df)

二、句子长度分布

复制代码
# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)

三、正负样本散点图

复制代码
# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')

四、不同词汇总数统计

复制代码
# map(func,iterable) :对每个iterable进行func处理,返回的是一个迭代器
# * :解包(只解最外层)
# chain :将多个可迭代对象解包再拼接成一个可迭代对象
# set :转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))

五、关键词词云

复制代码
wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)
相关推荐
木斯佳2 小时前
HarmonyOS 6实战:AI Action富媒体卡片迭代——实现快照分享
人工智能·harmonyos·媒体
芝士爱知识a2 小时前
2026高含金量写作类国际竞赛汇总与测评
大数据·人工智能·国际竞赛·写作类国际竞赛·写作类比赛推荐·cwa·国际写作比赛推荐
华农DrLai5 小时前
什么是LLM做推荐的三种范式?Prompt-based、Embedding-based、Fine-tuning深度解析
人工智能·深度学习·prompt·transformer·知识图谱·embedding
东北洗浴王子讲AI5 小时前
GPT-5.4辅助算法设计与优化:从理论到实践的系统方法
人工智能·gpt·算法·chatgpt
超低空5 小时前
OpenClaw Windows 安装详细教程
人工智能·程序员·ai编程
恋猫de小郭6 小时前
你的代理归我了:AI 大模型恶意中间人攻击,钱包都被转走了
前端·人工智能·ai编程
yongyoudayee6 小时前
2026 AI CRM选型大比拼:四大架构路线实测对比
人工智能·架构
高洁016 小时前
多模态AI模型融合难?核心问题与解决思路
人工智能·深度学习·机器学习·数据挖掘·transformer
碑 一7 小时前
视频分割Video K-Net
人工智能·计算机视觉
renhongxia17 小时前
ORACLE-SWE:量化Oracle 信息信号对SWE代理的贡献
人工智能·深度学习·学习·语言模型·分类