Day31_【 NLP _1.文本预处理 _(3)文本数据分析】

目录:

  • 文本数据分析

    • 标签数量分布

    • 句子长度分布

    • 正负样本散点图

    • 不同词汇总数统计

    • 关键词词云

文本数据分析:主要是利用画图API进行画图分析

以下为代码示例:

API

复制代码
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

一、标签数量分布

复制代码
sns.countplot(x="label", data=train_df)

二、句子长度分布

复制代码
# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)

三、正负样本散点图

复制代码
# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')

四、不同词汇总数统计

复制代码
# map(func,iterable) :对每个iterable进行func处理,返回的是一个迭代器
# * :解包(只解最外层)
# chain :将多个可迭代对象解包再拼接成一个可迭代对象
# set :转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))

五、关键词词云

复制代码
wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)
相关推荐
fpcc4 分钟前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文12 分钟前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛1392462567324 分钟前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎34 分钟前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF1 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学1 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
Empty-Filled1 小时前
AI生成测试用例功能怎么测:一个完整实战案例
网络·人工智能·测试用例
eastyuxiao1 小时前
设计一个基于 OpenClaw 的 AI 智能体来辅助交易
人工智能
Mr数据杨1 小时前
手写数字识别如何支撑文档数字化应用
机器学习·数据分析·kaggle
波动几何1 小时前
因果动力学架构技能cda
人工智能