postgresql中文分词插件安装

1.SCWS

要使用 zhparser,首先需要安装 SCWS 分词库,SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)GitHub

http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2

复制代码
./configure 
make install

2.Zhparser

GitHub - amutu/zhparser: zhparser is a PostgreSQL extension for full-text search of Chinese language

复制代码
 make && make install
遇到:pgxs.mk: 没有那个文件或目录,安装postgres-devel包
找不到pg_config:可以指定PG_CONFG=/usr/pgsql-14/bin/pg_config make

3.postgresql中文检索配置

登录postgresql启用zhparser插件

create extension zhparser;

创建使用zhparser作为解析器的全文搜索的配置

-- 就是需要给zhparser解析器取一个在sql里面可以使用的名称,一下"zh"则为名称 CREATE create text search configuration chinese (parser=zhparser);

添加token映射

alter text search configuration chinese add mapping for a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z with simple;

4、全文检索使用

索引创建

create index idx_name on table_name using gin(to_tsvector('zh', field_name));

查询

SELECT * FROM table_name WHERE to_tsvector('zh', field_name) @@ 'keyword';

相关推荐
hesorchen35 分钟前
算力与数据驱动的 AI 技术演进全景(1999-2024):模型范式、Infra 数据、语言模型与多模态的关键突破
人工智能·语言模型·自然语言处理
大千AI助手2 小时前
BPE(Byte Pair Encoding)详解:从基础原理到现代NLP应用
人工智能·自然语言处理·nlp·分词·bpe·大千ai助手·字节对编码
&永恒的星河&3 小时前
超越传统:大型语言模型在文本分类中的突破与代价
人工智能·自然语言处理·大模型·文本分类·llms
Datawhale3 小时前
3万字长文!通俗解析大语言模型LLM原理
人工智能·语言模型·自然语言处理
笨笨没好名字8 小时前
自然语言处理(NLP)之文本预处理:词元化——以《时间机器》文本数据集为例
人工智能·自然语言处理
skywalk81638 小时前
简单、高效且低成本的预训练、微调与服务,惠及大众基于 Ray 架构设计的覆盖大语言模型(LLM)完整生命周期的解决方案byzer-llm
人工智能·语言模型·自然语言处理
政安晨8 小时前
政安晨【零基础玩转开源AI项目】video-subtitle-remover 去除视频字幕水印(图像也可以)(基于Ubuntu Linux系统)
人工智能·语言模型·自然语言处理·图片去水印·视频去水印·开源ai·video-xx-remove
编码时空的诗意行者19 小时前
LM实现教程:基于 nanochat项目 从零开始理解大语言模型
人工智能·语言模型·自然语言处理
兔兔爱学习兔兔爱学习19 小时前
ASR+MT+LLM+TTS 一体化实时翻译字幕系统
人工智能·自然语言处理·机器翻译
会笑的小熊19 小时前
论文阅读笔记——自注意力机制
深度学习·计算机视觉·自然语言处理