技术栈
分词
羽_羊
17 天前
elasticsearch
·
nlp
·
分词
·
搜索
NLP-中文分词
中文分词根据实现特点大致可分为两个类别:基于词典的分词方法、基于统计的分词方法。__ 基于词典的分词方法 __:基于词典的分词方法首先会建立一个充分大的词典,然后依据一定的策略扫描句子,若句子中的某个子串与词典中的某个词匹配,则分词成功。 常见的扫描策略有:正向最大匹配、逆向最大匹配、双向最大匹配和最少词数分词。
Nicolas893
2 个月前
大模型
·
预处理
·
分词
·
tokenize
·
wordpiece
·
词元化
【大模型实战篇】大模型分词算法WordPiece分词及代码示例
继《大模型数据词元化处理BPE(Byte-Pair Encoding tokenization)》之后,我们针对大模型原始数据的分词处理,继续分享WordPiece分词技术【1】。
Nicolas893
2 个月前
jupyter
·
大模型
·
分词
·
gpt2
·
tokenize
·
大模型预处理
·
bpe
【大模型实战篇】大模型分词算法BPE(Byte-Pair Encoding tokenization)及代码示例
词元化是针对自然语言处理任务的数据预处理中一个重要步骤,目的是将原始文本切分成模型可以识别和处理的词元序列。在大模型训练任务中,就是作为大模型的输入。传统的自然语言处理方法,如基于条件随机场的序列标注,主要采用基于词汇的分词方式,这与我们人类的语言认知更为契合。但是,这种分词方法在中文等语言中,可能会导致对同一输入产生不同的分词结果,从而生成包含大量低频词的庞大词表,并可能出现未登录词(OOV)的问题。因此,一些语言模型开始使用字符作为最小单位进行分词,例如,ELMo 使用了 CNN 词编码器。近年来,子
会飞的Anthony
2 个月前
人工智能
·
分词
·
huggingface
基于Python的自然语言处理系列(34):Huggingface 自定义分词器与数据集
在自然语言处理 (NLP) 中,分词是将原始文本转换为模型可处理的数字形式的关键步骤。无论是情感分析、文本生成,还是问答系统,分词都决定了模型如何理解输入数据。Huggingface 的 transformers 库提供了多种强大的分词工具,使我们可以灵活地加载、保存和使用预训练模型的分词器。本篇文章将深入探讨 Huggingface 的分词器工作机制,包括基于词、字符和子词的分词方法。同时,我们将介绍如何处理长序列、多序列、以及使用填充 (padding) 和注意力掩码 (attention mask)
伊织code
8 个月前
java
·
自然语言处理
·
中文分词
·
分词
NLP Java - 中文分词
周全全
8 个月前
大数据
·
elasticsearch
·
分词
·
es
·
ik
Elasticsearch进阶篇(三):ik分词器的使用与项目应用
GitHub下载地址:Releases · infinilabs/analysis-ik · GitHub
转身之后才不会
1 年前
nlp
·
分词
hanlp,pkuseg,jieba,cutword分词实践
总结:只有jieba,cutword,baidu lac成功将色盲色弱成功分对,这两个库字典应该是最全的
爱看书的小沐
1 年前
python
·
自然语言处理
·
tf-idf
·
分词
·
sklearn
·
jieba
·
nltk
【小沐学NLP】Python实现TF-IDF算法(nltk、sklearn、jieba)
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
sweetheart7-7
1 年前
elasticsearch
·
spring cloud
·
分词
·
文档
·
分布式搜索引擎
·
索引库
Spring Cloud学习(九)【Elasticsearch 分布式搜索引擎01】
Elasticsearch 是一款非常强大的开源搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。
爱看书的小沐
1 年前
人工智能
·
python
·
自然语言处理
·
nlp
·
分词
·
数据清洗
·
nltk
【小沐学NLP】Python使用NLTK库的入门教程
NLTK - 自然语言工具包 - 是一套开源Python。 支持自然研究和开发的模块、数据集和教程 语言处理。NLTK 需要 Python 版本 3.7、3.8、3.9、3.10 或 3.11。
.别拖至春天.
1 年前
人工智能
·
自然语言处理
·
pyqt
·
分词
·
文本分类
·
文本聚类
·
命名实体识别
自然语言处理应用程序设计
原文地址:https://zhanghan.xyz/posts/22426/