nlp

爱学习的书文1 天前
大模型·nlp·datawhale打卡
Datawhlale_快乐学习大模型_task02_NLP 基础概念书籍地址简要总结一下个人理解英文:Natural Language Processing 全程:自然语言处理 含义:通过计算机模拟人类认知和使用语言
羊小猪~~1 天前
人工智能·深度学习·神经网络·自然语言处理·大模型·nlp·embedding
【NLP入门系列三】NLP文本嵌入(以Embedding和EmbeddingBag为例)博主简介:努力学习的22级本科生一枚 🌟;探索AI算法,C++,go语言的世界;在迷茫中寻找光芒🌸 博客主页:羊小猪~~-CSDN博客 内容简介:NLP入门三,Embedding和EmbeddingBag嵌入. 🌸箴言🌸:去寻找理想的“天空“”之城 上一篇内容:【NLP入门系列二】NLP分词和字典构建-CSDN博客
我想说一句1 天前
前端·nlp·trae
在Colab玩转大模型:一天速成NLP魔法师!——当Hugging Face遇上.ipynb,连蜡烛都能听懂人话了本人是搞js的,对机器学习当然是一窍不通,但是这也没事,有了Colab,你也能玩转社区大模型
AI-星辰5 天前
人工智能·大模型·llm·nlp
始理解NLP:我的第一章学习心得最近开始学习Datawhale的Happy-LLM教程,刚完成第一章《NLP基础概念》的学习。作为一个对大语言模型感兴趣的初学者,这一章给了我很多启发。想记录一下自己的学习收获和思考。
故事挺秃然6 天前
算法·nlp
中文分词:机械分词算法详解与实践总结引子:上一篇文章我们从中文分词的历程、发展、问题等方面进行了理论性的探讨,从概念方面对中文分词有了一定的了解与认识,今天,我们主要探讨中文分词中的机械分词。
love530love7 天前
linux·运维·前端·人工智能·windows·后端·nlp
是否需要预先安装 CUDA Toolkit?——按使用场景分级推荐及进阶说明以下内容是从实践角度出发,对 CUDA 工具链是否需要在Windows系统上预先安装 进行逻辑说明,不仅只停留在“需/不需”,而是以使用场景为依据,进行推荐与分层解释,特别突出生产环境/开发环境建议提前在系统上安装 CUDA Toolkit 。
故事挺秃然8 天前
nlp·mcp
MCP(模型上下文协议)——AI生态的“万能插座”关于上一篇分词的相关算法以及实践,得稍等等去更新了,这两天在折腾组装主机。因此将这篇在公司内技术分享的内容,分享出来,偷个懒。
zsq8 天前
论文阅读·笔记·nlp·大语言模型幻觉
【论文阅读笔记】HaDes幻觉检测benchmarkLLM幻觉检测现有方法缺点:提出 令牌级(token-level)、无参考(reference-free) 的幻觉检测任务,无需依赖外部参考文本,直接检测文本中单个令牌的幻觉风险。同时,构建了上述任务的数据集 HaDes。构建流程如下:
故事挺秃然10 天前
nlp
TF-IDF算法的代码实践应用——关键词提取、文本分类、信息检索回顾:TF-IDF算法详解与实践总结上一篇文章我们深入剖析了TF-IDF的原理与细节,但实践才是检验真理的唯一标准!今天,我们将从“纸上谈兵”转向“实战演练”:通过纯Python手写实现与调用sklearn工具包两种方式,带你一步步完成TF-IDF在真实场景中的应用
风雨中的小七12 天前
llm·nlp
解密prompt系列55.Agent Memory的工程实现 - Mem0 & LlamaIndex记忆存储是构建智能个性化、越用越懂你的Agent的核心挑战。上期我们探讨了模型方案实现长记忆存储,本期将聚焦工程实现层面。
柠石榴14 天前
论文阅读·笔记·深度学习·nlp·text-to-sql
【论文阅读笔记】《A survey on deep learning approaches for text-to-SQL》A survey on deep learning approaches for text-to-SQL
拾忆-eleven14 天前
自然语言处理·nlp
NLP学习路线图(三十):微调策略在自然语言处理领域,预训练语言模型(如BERT、GPT、T5)已成为基础设施。但如何让这些“通才”模型蜕变为特定任务的“专家”?微调策略正是关键所在。本文将深入剖析七种核心微调技术及其演进逻辑。
拾忆-eleven14 天前
rnn·自然语言处理·nlp
NLP学习路线图(二十二): 循环神经网络(RNN)在自然语言处理(NLP)的广阔天地中,序列数据是绝对的核心——无论是流淌的文本、连续的语音还是跳跃的时间序列,都蕴含着前后紧密关联的信息。传统神经网络如同面对一幅打散的拼图,无法理解词语间的顺序关系,注定在序列任务上举步维艰。而循环神经网络(RNN)的诞生,正是为了解决这一核心挑战,为机器赋予了处理序列信息的记忆能力。
拾忆-eleven16 天前
自然语言处理·nlp
NLP学习路线图(二十五):注意力机制在自然语言处理领域,序列模型一直扮演着核心角色。从早期的循环神经网络(RNN)到如今一统天下的Transformer模型,注意力机制(Attention Mechanism) 的引入堪称一场革命。它彻底改变了模型处理序列信息的方式,显著提升了机器翻译、文本摘要、问答系统等任务的表现。本文将深入剖析注意力机制的原理、演进及其在序列模型中的关键作用。
拾忆-eleven18 天前
人工智能·算法·机器学习·nlp
NLP学习路线图(二十):FastText在自然语言处理(NLP)领域,词向量(Word Embedding)是基石般的存在。它将离散的符号——词语——转化为连续的、富含语义信息的向量表示,使得计算机能够“理解”语言。而在众多词向量模型中,FastText 凭借其独特的设计理念和卓越性能,尤其是在处理形态丰富的语言和罕见词方面,成为不可或缺的利器。本文将深入探讨词向量的核心概念、FastText的创新原理、技术优势、实现细节以及实际应用。
用户3024070935219 天前
nlp
多跳问答数据难找?试试 HopWeaver:首个基于任意语料库的自动合成框架,质量直逼人工标注在自然语言处理领域,多跳问答(Multi-hop Question Answering,MHQA)一直被视为评估AI系统(如熟知的RAG)高级推理能力的黄金标准。多跳问题要求模型跨越多个文档,通过逻辑推理找出答案,而不是简单地从单一段落中提取信息。然而,高质量的多跳问答数据集极其稀缺,主要受限于三大因素:
Elastic开源社区19 天前
java·开发语言·自然语言处理·nlp
Java生态中的NLP框架Java生态系统中提供了多个强大的自然语言处理(NLP)框架,以下是主要的NLP框架及其详细说明:简介:Apache OpenNLP是Apache软件基金会的开源项目,提供了一系列常用的NLP工具。
拾忆-eleven19 天前
人工智能·学习·自然语言处理·nlp
NLP学习路线图(十四):词袋模型(Bag of Words)在自然语言处理(NLP)的广阔天地中,词袋模型(Bag of Words, BoW) 宛如一块历经岁月沉淀的基石。它虽非当今最耀眼的明星,却为整个领域奠定了至关重要的基础,深刻影响了我们让计算机“理解”文本的方式。本文将深入探讨词袋模型的原理、实现、应用、局限及其在现代NLP中的深远影响。
拾忆-eleven19 天前
人工智能·学习·自然语言处理·nlp
NLP学习路线图(十五):TF-IDF(词频-逆文档频率)在自然语言处理(NLP)的浩瀚宇宙中,TF-IDF(词频-逆文档频率) 犹如一颗恒星,虽古老却依然璀璨。当ChatGPT、BERT等大模型光芒四射时,TF-IDF作为传统方法的代表,其简洁性、高效性与可解释性仍在诸多场景中焕发着不可替代的生命力。本文将深入解析TF-IDF的原理、实现、应用及其在现代NLP中的独特价值。
拾忆-eleven21 天前
自然语言处理·nlp
NLP学习路线图(十三):正则表达式在自然语言处理(NLP)的浩瀚宇宙中,原始文本数据如同未经雕琢的璞玉。而文本预处理,尤其是其中至关重要的正则表达式技术,正是将这块璞玉转化为精美玉器的核心工具集。本文将深入探讨正则表达式在NLP文本预处理中的原理、技巧与实践应用。