R语言jiebaR包使用摘要

r 复制代码
library(tidyverse)
library(jiebaR)

1、jiebaR安装

=========================

github中有包,但已经近十年未更新,下载地址: !\[\]https://github.com/qinwf/jiebaR
注意,jiebaR和jiebaRD必须一同下载

r 复制代码
install.packages(
  "C:/Users/ostri/Downloads/jiebaR.tar.gz", 
  repos = NULL, type = "win.binary")
setwd("C:/Documents/chn")
getwd()
(fl <- list.files())
read_excel(fl[1])

2、创建词典

=========================

3、用结巴分词

=========================

r 复制代码
wk <- worker( )
# 增加自定义的词典
my_dict <- read_lines('my_dict.txt',header=FALSE)
new_user_word(wk,my_dict$V1)
segment(txt,wk)

4、设置STOP_WRODS

=========================

自定义词典,规定了哪些字组成词

但对stop_wrod没有涉及,需要单独导入

将stop_wrod保存在stop_words.txt文件中

将其作为jiebaR的stop_words:

R 复制代码
# 注意在worker中,只能用目录,不能是R的对象
wk <- worker(stop_word = 'stop_words.txt')

5、开始分词

===========================

r 复制代码
txt <- read_lines('a.txt')
head(txt)
dt <- tibble(
  txt=segment(txt,wk)
  )%>% 
  group_by(txt) %>% 
  mutate(
    cnt=n()
  ) %>% 
  ungroup() %>% 
  arrange(desc(cnt)) %>% 
  unique()

6、对结果进行二次过滤

==================

即将一些词视作stop_words,在结果中剔除

r 复制代码
flter <- c("也就是说","我说","敬启者")
dt <- tibble(
  txt=segment(txt,wk) %>% 
  filter_segment(flter)) %>% 
    group_by(txt) %>% 
    mutate(
      cnt=n()
    ) %>% 
    ungroup() %>% 
    arrange(desc(cnt)) %>% 
    unique() 
相关推荐
小小测试开发5 小时前
安装 Python 3.10+
开发语言·人工智能·python
AAA大运重卡何师傅(专跑国道)6 小时前
【无标题】
开发语言·c#
XBodhi.7 小时前
Visual Studio C++ 语法错误: 缺少“;”(在“return”的前面)
开发语言·c++·visual studio
LSssT.7 小时前
【01】Python 机器学习
开发语言·python
l1t8 小时前
DeepSeek总结的使用实体-组件-系统和基于存在性处理进行Python编程39-40
开发语言·python
曾阿伦8 小时前
Python 搭建简易HTTP服务
开发语言·python·http
YG亲测源码屋8 小时前
java配置环境变量、jdk环境变量配置、java环境变量设置方法
java·开发语言
MIUMIUKK8 小时前
从语法层面,看懂 Python 的特殊处
java·开发语言·python
FlyWIHTSKY8 小时前
TS、TSX、JS、JSX 文件扩展名详解
开发语言·javascript·ecmascript
着迷不白8 小时前
第一部分:认识python
开发语言·python