实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为"考硕考博"板块的帖子标题,job_titles.txt为"招聘信息"板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

代码

复制代码
import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:
    academy_titles = file.readlines()

# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:
    job_titles = file.readlines()

# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]

# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:
    words = jieba.cut(title)
    filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]
    academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

相关推荐
VBA63371 天前
VBA之Excel应用第十节:用Union和Intersect方法获得单元格区域
开发语言·自然语言处理
ModestCoder_1 天前
强化学习 Policy 的 Tracking 能力全解析,以Legged_gym为例解说Policy的训练流程
人工智能·算法·自然语言处理·机器人·具身智能
青稞社区.1 天前
Fast-dLLM v2:高效训练推理的块扩散大语言模型框架
人工智能·语言模型·自然语言处理
阿杰学AI1 天前
AI核心知识40——大语言模型之Token(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·token
低调小一1 天前
通过「思考-行动-观察」循环,重新理解 AI 智能体
人工智能·自然语言处理
小oo呆1 天前
【自然语言处理与大模型】三种实现多模态技术的路线
人工智能·自然语言处理
flying_13141 天前
推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(二)
语言模型·自然语言处理·llm·推荐系统·对比学习·协同微调·推荐大模型
阿杰学AI1 天前
AI核心知识37——大语言模型之ASI(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·agi·asi·超人工智能
flying_13141 天前
推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(三)
自然语言处理·大模型·llm·推荐系统·对比学习·notellm·协同微调
青云交1 天前
Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对话系统多轮交互优化与用户体验提升
java·大数据·机器学习·自然语言处理·对话系统·多轮交互