技术栈
中文分词
周圣贤
12 天前
中文分词
我的食物信使女友
第一章:初识那是一个普通的周三下午,阳光透过咖啡馆的玻璃窗洒在木质的桌子上,空气中弥漫着咖啡的香气和轻柔的爵士乐。我坐在角落的一个位置,手中捧着一本已经翻了几十页的小说,但心思却完全不在文字上。我的生活就像这杯已经冷却的拿铁,平淡无奇,缺乏波澜。就在这时,她出现了。她穿着一件简单的白色连衣裙,头发随意地扎成一个马尾,脸上带着一抹温暖的微笑。她走到柜台前,轻声点了一杯胡萝卜汁,然后优雅地转身,目光扫过整个咖啡馆,最终停在了我身上。我的心跳突然加速,仿佛被某种神秘的力量击中。她的眼神清澈而深邃,仿佛能看透我的
晨曦543210
14 天前
自然语言处理
·
中文分词
中文分词与数据可视化02
jieba(结巴分词)是一个高效的中文分词工具,广泛用于中文自然语言处理(NLP)任务。它支持以下功能:
晨曦543210
14 天前
信息可视化
·
中文分词
中文分词与数据可视化
中文分词是将连续的汉字序列切分成具有语义意义的词语的过程。例如:输入:"自然语言处理很有趣"输出:["自然语言", "处理", "很", "有趣"]
老马啸西风
1 个月前
人工智能
·
ai
·
nlp
·
中文分词
·
openai
·
deepseek
·
mcp
敏感词 v0.25.0 新特性之 wordCheck 策略支持用户自定义
敏感词核心 https://github.com/houbb/sensitive-word敏感词控台 https://github.com/houbb/sensitive-word-admin
真的睡不醒ovo
1 个月前
大数据
·
elasticsearch
·
中文分词
elasticsearch中文分词器插件下载教程
下载链接点这-->找到与自己的elasticsearch想对应的版本下载即可
多吃轻食
2 个月前
人工智能
·
深度学习
·
自然语言处理
·
中文分词
·
分词
·
jieba
·
隐马尔可夫
Jieba分词的原理及应用(三)
“结巴”中文分词:做最好的 Python 中文分词组件上一篇文章讲了使用TF-IDF+分类器范式进行企业级文本分类的案例。其中提到了中文场景不比英文场景,在喂给模型之前需要进行分词操作。
李昊哲小课
2 个月前
人工智能
·
python
·
机器学习
·
自然语言处理
·
分类
·
数据挖掘
·
中文分词
垃圾短信分类
需要准备 stopwords.txt 停用词表和 sms_dict.txt 自定义词表原始数据文件需为竖线分隔的文本格式
机器学习Zero
2 个月前
人工智能
·
自然语言处理
·
中文分词
自然语言处理(5)—— 中文分词
信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。
郝开
3 个月前
elasticsearch
·
中文分词
·
ik
·
ik analyzer
ElasticSearch 分词器介绍及测试:Standard(标准分词器)、English(英文分词器)、Chinese(中文分词器)、IK(IK 分词器)
本文 ElasticSearch 版本为:7.17.9,为了对应 spring-boot-starter-parent 的 2.7.9 版本
爱刘温柔的小猪
3 个月前
java
·
ai
·
中文分词
Java不用模型,直接实现中文分词(HanLP)
因为项目需要进行中文分词后,按关键词进行检索,为此小功能引入一个分词小模型占用GPU算力,不值得。 所以经过研究和测试,决定使用Han Language Processing (HanLP)进行免模型中文分词。它的分词效果和速度经过多方测试,表现都不错。
易安杰
3 个月前
linux
·
elasticsearch
·
搜索引擎
·
全文检索
·
中文分词
ElasticSearch+Kibana通过Docker部署到Linux服务器中
Elasticsearch 是一个基于 Lucene 构建的开源搜索引擎,它提供了一个分布式、RESTful 风格的搜索和数据分析引擎。Elasticsearch 能够对大量数据进行快速全文搜索,并且具有非常好的水平扩展能力,这意味着当你需要处理更多数据时,可以通过增加更多的服务器来提升性能。
leeindex
3 个月前
大数据
·
elasticsearch
·
搜索引擎
·
全文检索
·
中文分词
·
渗透
·
lucene
ES 渗透查询 (Percolate query)
Percolate query [ˈpɜ:kəleɪt] [ˈkwɪəri]传统搜索是存储文档(JSON 文档),然后发出查询以检索数据的子集.
funsion
4 个月前
c语言
·
开发语言
·
中文分词
·
lua
Lua中文语言编程源码-第十一节,其它小改动汉化过程
__tostring 汉化过程liolib.c metameth[] {"__转换为字符串", f_tostring},
周杰伦_Jay
4 个月前
人工智能
·
深度学习
·
神经网络
·
全文检索
·
中文分词
人工智能领域单词:英文解释
亲爱的家人们,创作很不容易,若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力,谢谢大家!有问题请私信或联系邮箱:
[email protected]
沉下心来学鲁班
4 个月前
人工智能
·
语言模型
·
中文分词
·
tokenizer
ScratchLLMStepByStep:训练自己的Tokenizer
分词器是每个大语言模型必不可少的组件,但每个大语言模型的分词器几乎都不相同。如果要训练自己的分词器,可以使用huggingface的tokenizers框架,tokenizers包含以下主要组件:
Captain823Jack
5 个月前
人工智能
·
python
·
深度学习
·
神经网络
·
算法
·
自然语言处理
·
中文分词
w04_nlp大模型训练·中文分词
一、函数和类的功能分析:calc_dag(sentence)函数:DAGDecode类:二、代码逻辑总结:
pblh123
6 个月前
数据库
·
python
·
spark-ml
·
spark
·
中文分词
PySpark3.4.4_基于StreamingContext实现网络字节流中英文分词词频累加统计结果保存到数据库中
开发streamingContext程序,统计实时中英文网络字节流数据,实现中英文累计分词统计,并将统计结果持久化保存到关系型数据库.
emperinter
6 个月前
人工智能
·
macos
·
ios
·
信息可视化
·
中文分词
WordCloudStudio Now Supports AliPay for Subscriptions !
We’re thrilled to announce that WordCloudStudio now supports AliPay for recurring subscriptions, making it easier than ever for our users to enjoy seamless access to our premium features.
IT果果日记
7 个月前
数据库
·
mysql
·
全文检索
·
中文分词
·
全文索引
MySQL全文索引检索中文
5.7.6版本不支持中文检索,需要手动修改配置 ft_min_word_len = 1 ,因为默认配置 4
阿诚学java
7 个月前
算法
·
中文分词
数据结构与算法-21算法专项(中文分词)(END)
搜索引擎是如何理解我们的搜索语句的?mysql中使用 【like “%中国%”】,这样的使用方案Trie树,又称前缀树、字典树或单词查找树,是一种树形结构,用于快速检索字符串数据集中的键。Trie树的核心思想是利用字符串的公共前缀来降低查询时间的开销。在Trie树中,每个节点都代表一个字符串中的某个前缀,从根节点到某一节点的路径上的所有字符连接起来,就是该节点对应的字符串。Trie树中不存在值域,其值就隐含在树的路径中。