实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为"考硕考博"板块的帖子标题,job_titles.txt为"招聘信息"板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

代码

import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:
    academy_titles = file.readlines()

# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:
    job_titles = file.readlines()

# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]

# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:
    words = jieba.cut(title)
    filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]
    academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

相关推荐
人工智能培训咨询叶梓31 分钟前
Lumière:开创性的视频生成模型及其应用
人工智能·深度学习·机器学习·语言模型·自然语言处理·音视频·多模态
大耳朵爱学习11 小时前
大模型技术:能否引领十年的行业变革与职业发展黄金期?......
人工智能·程序人生·语言模型·自然语言处理·大模型·llm·llama
sky丶Mamba15 小时前
RAG技术:在自然语言处理中的深度融合与创新
人工智能·自然语言处理·rag
忆~遂愿20 小时前
「全新升级,性能更强大——ONLYOFFICE 桌面编辑器 8.1 深度评测」
人工智能·机器学习·语言模型·自然语言处理·编辑器·知识图谱·机器翻译
老王IT21 小时前
什么是大语言模型
人工智能·语言模型·自然语言处理
松果财经1 天前
科大讯飞:星火大模型快进入Next-level了
人工智能·自然语言处理
三月七(爱看动漫的程序员)1 天前
Query Rewriting for Retrieval-Augmented Large Language Models
人工智能·语言模型·自然语言处理
杏仁橙橙饼1 天前
2024自然语言处理期末回忆
人工智能·自然语言处理
HyperAI超神经1 天前
入选顶会ICML,清华AIR等联合发布蛋白质语言模型ESM-AA,超越传统SOTA
人工智能·深度学习·机器学习·语言模型·自然语言处理·清华大学·蛋白质语言模型
人工智能培训咨询叶梓2 天前
AI助力科研:自动化科学构思生成系统初探
人工智能·深度学习·计算机视觉·ai·自然语言处理·自动化·科研