R语言jiebaR包使用摘要

r 复制代码
library(tidyverse)
library(jiebaR)

1、jiebaR安装

=========================

github中有包,但已经近十年未更新,下载地址: ![]https://github.com/qinwf/jiebaR
注意,jiebaR和jiebaRD必须一同下载

r 复制代码
install.packages(
  "C:/Users/ostri/Downloads/jiebaR.tar.gz", 
  repos = NULL, type = "win.binary")
setwd("C:/Documents/chn")
getwd()
(fl <- list.files())
read_excel(fl[1])

2、创建词典

=========================

3、用结巴分词

=========================

r 复制代码
wk <- worker( )
# 增加自定义的词典
my_dict <- read_lines('my_dict.txt',header=FALSE)
new_user_word(wk,my_dict$V1)
segment(txt,wk)

4、设置STOP_WRODS

=========================

自定义词典,规定了哪些字组成词

但对stop_wrod没有涉及,需要单独导入

将stop_wrod保存在stop_words.txt文件中

将其作为jiebaR的stop_words:

R 复制代码
# 注意在worker中,只能用目录,不能是R的对象
wk <- worker(stop_word = 'stop_words.txt')

5、开始分词

===========================

r 复制代码
txt <- read_lines('a.txt')
head(txt)
dt <- tibble(
  txt=segment(txt,wk)
  )%>% 
  group_by(txt) %>% 
  mutate(
    cnt=n()
  ) %>% 
  ungroup() %>% 
  arrange(desc(cnt)) %>% 
  unique()

6、对结果进行二次过滤

==================

即将一些词视作stop_words,在结果中剔除

r 复制代码
flter <- c("也就是说","我说","敬启者")
dt <- tibble(
  txt=segment(txt,wk) %>% 
  filter_segment(flter)) %>% 
    group_by(txt) %>% 
    mutate(
      cnt=n()
    ) %>% 
    ungroup() %>% 
    arrange(desc(cnt)) %>% 
    unique() 
相关推荐
Evand J1 小时前
【MATLAB】多无人机编队协同控制与三维航迹规划仿真。障碍物斥力避障,输出编队误差、控制输入、三维轨迹等
开发语言·matlab·无人机
froginwe112 小时前
jQuery UI 小部件方法调用
开发语言
信奥胡老师2 小时前
B3930 [GESP202312 五级] 烹饪问题
开发语言·数据结构·c++·学习·算法
JAVA学习通2 小时前
安脉盛 软件后端开发实习面经
java·开发语言
sycmancia2 小时前
Qt——Qt中的事件处理(一)
开发语言·qt
Halo_tjn2 小时前
Java IO流文件操作
java·开发语言
折哥的程序人生 · 物流技术专研2 小时前
《Java 100 天进阶之路》第23篇:缓冲区数据结构 ByteBuffer
java·开发语言·数据结构·后端·面试·求职招聘
lsx2024062 小时前
Razor VB 循环
开发语言
csuzhucong2 小时前
c++版本特性
开发语言·c++