R语言jiebaR包使用摘要

r 复制代码
library(tidyverse)
library(jiebaR)

1、jiebaR安装

=========================

github中有包,但已经近十年未更新,下载地址: !\[\]https://github.com/qinwf/jiebaR
注意,jiebaR和jiebaRD必须一同下载

r 复制代码
install.packages(
  "C:/Users/ostri/Downloads/jiebaR.tar.gz", 
  repos = NULL, type = "win.binary")
setwd("C:/Documents/chn")
getwd()
(fl <- list.files())
read_excel(fl[1])

2、创建词典

=========================

3、用结巴分词

=========================

r 复制代码
wk <- worker( )
# 增加自定义的词典
my_dict <- read_lines('my_dict.txt',header=FALSE)
new_user_word(wk,my_dict$V1)
segment(txt,wk)

4、设置STOP_WRODS

=========================

自定义词典,规定了哪些字组成词

但对stop_wrod没有涉及,需要单独导入

将stop_wrod保存在stop_words.txt文件中

将其作为jiebaR的stop_words:

R 复制代码
# 注意在worker中,只能用目录,不能是R的对象
wk <- worker(stop_word = 'stop_words.txt')

5、开始分词

===========================

r 复制代码
txt <- read_lines('a.txt')
head(txt)
dt <- tibble(
  txt=segment(txt,wk)
  )%>% 
  group_by(txt) %>% 
  mutate(
    cnt=n()
  ) %>% 
  ungroup() %>% 
  arrange(desc(cnt)) %>% 
  unique()

6、对结果进行二次过滤

==================

即将一些词视作stop_words,在结果中剔除

r 复制代码
flter <- c("也就是说","我说","敬启者")
dt <- tibble(
  txt=segment(txt,wk) %>% 
  filter_segment(flter)) %>% 
    group_by(txt) %>% 
    mutate(
      cnt=n()
    ) %>% 
    ungroup() %>% 
    arrange(desc(cnt)) %>% 
    unique() 
相关推荐
LDR00610 天前
Type-C 快充全面升级!LDR6601 赋能个人护理便携电机,重塑剃须刀 / 理发器新体验
c语言·开发语言
雪碧聊技术10 天前
Tree.js是什么?一文讲透
开发语言·javascript·ecmascript
码云数智-园园10 天前
C++20 Modules 模块详解
java·开发语言·spring
swordbob10 天前
NIO的channel中什么是 fd(File Descriptor,文件描述符)
java·开发语言·nio
源分享10 天前
Java线程同步的多种实现方法(非常详细)
java·开发语言·jvm
Luminous.10 天前
C语言--day30
c语言·开发语言
何以解忧,唯有..10 天前
Go语言循环语句详解:for、range与循环控制
开发语言·算法·golang
謓泽10 天前
C语言不是语法,是通往机器的地图。
c语言·开发语言
云水一下10 天前
从零开始学 PHP 系列(一):PHP 的前世今生与开发环境搭建
开发语言·php
飞天狗11110 天前
零基础JavaWeb入门——第五课第二小节:九大内置对象 · 第2个:response(响应对象)
java·开发语言