nlp

来酱何人2 天前
人工智能·深度学习·分类·nlp·bert
低资源NLP数据处理:少样本/零样本场景下数据增强与迁移学习结合方案摘要 在自然语言处理(NLP)领域,低资源场景(少样本/零样本)因标注数据稀缺,成为模型性能提升的核心瓶颈。本文提出将数据增强技术与迁移学习框架深度结合的解决方案,通过数据增强扩充样本多样性、迁移学习复用预训练知识,形成“数据扩容-知识迁移-模型适配”的闭环。实验表明,该方案在情感分析、命名实体识别等低资源任务中,可使模型F1值提升8%-15%,为低资源NLP任务提供高效可行的技术路径。 一、低资源NLP场景的核心挑战 低资源NLP任务主要分为两类:少样本学习(Few-Shot Learning) 指目标
风雨中的小七2 天前
llm·nlp
解密prompt系列62. Agent Memory一览 - MATTS & CFGM & MIRIX今天我们再来聊聊AI智能体中至关重要的组件——记忆系统,它能有效避免的Agent像只只有7秒记忆的金鱼,不断重复错误,循环往复。
闲人编程3 天前
python·深度学习·自然语言处理·nlp·transformer·hugging face·codecapsule
深入浅出Transformer:使用Hugging Face库快速上手NLP『宝藏代码胶囊开张啦!』—— 我的 CodeCapsule 来咯!✨ 写代码不再头疼!我的新站点 CodeCapsule 主打一个 “白菜价”+“量身定制”!无论是卡脖子的毕设/课设/文献复现,需要灵光一现的算法改进,还是想给项目加个“外挂”,这里都有便宜又好用的代码方案等你发现!低成本,高适配,助你轻松通关!速来围观 👉 CodeCapsule官网
takashi_void4 天前
linux·人工智能·windows·macos·语言模型·nlp
如何在本地部署大语言模型(Windows,Mac,Linux)三系统教程因为很多的大语言模型的API比较贵,所以呢在本地部署大语言模型做一些实验就是好的选择,尤其在实验室或者公共资源,算力比较好的情况下。这里给出一个三系统(Windows,Mac,Linux)分别如何自己部署一个本地大语言模型。这里的模型选用llama3.2:3b。只用跟着做,你就可以部署自己的本地大语言模型啦。
来酱何人5 天前
人工智能·分类·nlp·bert·机器翻译
机器翻译数据处理核心技术:从语料到模型的质量管控链路机器翻译(MT)系统的性能,本质上由“数据质量”与“模型架构”共同决定。在Transformer等主流模型架构趋于成熟的当下,高质量双语语料成为拉开性能差距的关键。而双语语料清洗、句子长度过滤、领域术语一致性维护,是构建“高纯净度、高适配性、高专业性”语料库的三大核心环节,直接影响模型对双语语义映射关系的学习效果。 一、双语语料清洗:筑牢数据质量根基 原始双语语料(如网络爬取数据、平行语料库)中普遍存在噪声,包括非平行句对、语义偏差句对、垃圾信息等。清洗的核心目标是剔除噪声,保留“语义对等、表达规范”的有
渣渣盟7 天前
人工智能·python·nlp
解密NLP:从入门到精通自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
只是懒得想了7 天前
人工智能·自然语言处理·nlp·word2vec·gensim
使用 Gensim 进行主题建模(LDA)与词向量训练(Word2Vec)的完整指南在自然语言处理(NLP)中,主题建模和词向量表示是理解文本语义结构的两大基石。gensim 是一个功能强大且高效的 Python 库,专为大规模无监督语言建模设计,尤其擅长实现 Latent Dirichlet Allocation (LDA) 和 Word2Vec 模型。
AI人工智能+7 天前
人工智能·nlp·ocr·发票识别
发票识别技术:结合OCR与AI技术,实现纸质票据高效数字化,推动企业智能化转型在数字化浪潮席卷各行各业的今天,海量的纸质发票和票据凭证曾是财务工作流程自动化与智能化的最大障碍之一。如何将这些非结构化的纸质信息,高效、准确地转化为可编辑、可分析的结构化数据?发票识别技术应运而生,成为打通企业数字化转型“最后一公里”的关键利器。
东方芷兰8 天前
人工智能·笔记·深度学习·神经网络·语言模型·自然语言处理·nlp
LLM 笔记 —— 07 Tokenizers(BPE、WordPeice、SentencePiece、Unigram)BPE 的基本思想是将单词分成一系列 “子词单元”,这些单元是在参考语料库(即我们用来训练它的语料库)中频繁出现的单元。
flying_13148 天前
自然语言处理·nlp·word2vec·softmax·skip-gram·hierarchical·分层softmax
自然语言处理分享系列-词语和短语的分布式表示及其组合性(一)目录一、摘要连续 Skip-gram 模型及其改进词表示的局限性及短语处理二、介绍分布式词向量的作用Skip-gram模型的创新
来酱何人9 天前
nlp
文本规范化:缩写还原(“BTW”→“By The Way”)、繁体转简体、拼写纠错的工程化实现在NLP流程中,文本规范化是连接“原始文本”与“特征提取”的关键桥梁——用户输入、社交媒体评论、历史文档等原始文本常包含缩写(如“OMG”“DIY”)、繁简混用(如“電腦”与“电脑”)、拼写错误(如“teh”“wrold”)等问题,若不处理会直接干扰分词、词性标注等下游任务效果。本文聚焦文本规范化的三大核心场景:缩写还原、繁体转简体、拼写纠错,从技术选型、工程化实现到性能优化,提供可落地的完整方案,解决“规则覆盖不全”“处理效率低”“场景适配难”等实战痛点。 一、先明确:文本规范化的工程化目标 不同于实验
来酱何人9 天前
nlp
词性标注实战:基于BERT的词性标注模型训练,解决生僻词、专业术语标注不准问题在NLP任务中,词性标注(Part-of-Speech Tagging,POS Tagging)是句法分析、命名实体识别等下游任务的基础,其核心是为文本中的每个词语标注语法类别(如名词n、动词v、形容词a)。传统方法(如CRF、隐马尔可夫模型)依赖人工设计特征,面对生僻词(如“舴艋”“龃龉”)、专业术语(如“Transformer”“卷积层”)时,标注准确率常低于80%。而基于BERT的预训练模型能通过上下文语义理解,自动学习复杂词汇的特征,将生僻词与专业术语的标注准确率提升至95%以上。本文将从数据准备
斐夷所非10 天前
nlp
自然语言处理中字节级与令牌级 Transformer 模型的对比分析注:英文引文,机翻未校。 如有内容异常,请看原文。Greg Robison Apr 22, 2025How you can not know how many letter “r”s are in the word “strawberry”? You just count them up, 1–2–3. But what if you don’t see individual letters, but instead see chunks of letters? Those are tokens and
AI人工智能+11 天前
人工智能·nlp·ocr·文档抽取
文档抽取技术作为AI和自然语言处理的核心应用,正成为企业数字化转型的关键工具在信息爆炸的时代,企业机构内部沉淀了海量的非结构化文档数据——合同、报告、发票、简历、研究论文等等。这些文档如同沉睡的金矿,蕴含着巨大的商业价值。然而,如何高效、精准地从中提取关键信息,并将其转化为可检索、可分析、可操作的结构化数据,一直是企业数字化进程中的核心挑战。
马诗剑12 天前
nlp·通义灵码
🚀 Qwen2.5-Coder 情感分析微调教程本文基于实战项目,手把手教你微调 Qwen2.5-Coder 进行中文情感分析。使用冻结训练方法,在 T4 GPU 上 15-30 分钟完成训练,准确率从 91.6% 提升到 97.8%!
Youkre13 天前
nlp
注意力机制:让神经网络学会“重点回顾”上一篇:# Seq2Seq:教神经网络“中译英”上一篇,我们教会了模型做“中译英”——它能把一句话读懂,写成一张“小纸条”,再翻译出来。 但有个问题:如果句子很长,比如《出师表》全文,这张“小纸条”能记得住所有细节吗? 显然不能。 结果就是:翻译到后面,它忘了前面说了啥……
Youkre13 天前
nlp
Seq2Seq:教神经网络“中译英”——从一句话到一段话上一篇:# LSTM:给神经网络装上“长期记忆”上一篇,我们教会了模型记住一句话的“上下文”。 但它还不会“翻译”——比如把 “Hello” 变成 “你好”,或者把 “2+3” 算出 “5”。 今天,我们就来教它一项新技能:把一种序列,转换成另一种序列。 这就是 Seq2Seq(Sequence to Sequence)模型,机器翻译、聊天机器人、文本摘要的基石。
风雨中的小七13 天前
llm·nlp
解密prompt系列61. 手搓代码沙箱与FastAPI-MCP实战最近Vibe Code在各种技术社区刷屏,不过说实话,在日常工作中,我更多是用LLM来生成文档、批量修改代码或者排查问题。毕竟业务需求嘛,很少有能一次性描述清楚的(懂的都懂哈哈~)。但在看了最新的SWE-Bench Pro评测后,我决定尝试一下端到端的AI编程体验。
Youkre14 天前
nlp
改进Word2Vec:从“暴力计算”到“聪明学习”上一篇,我们用一个“填空游戏”教会了模型预测单词——这就是经典的 CBOW 模型。 但我们的模型有个“小毛病”:它太“笨”了,每次都要把整个词表过一遍,像个学生每次考试都要把字典从头到尾背一遍。 今天,我们就来给它“升级装备”,让它变得更聪明、更高效!
丁学文武15 天前
自然语言处理·nlp·机器翻译·文本摘要·实体识别·大模型应用·自动问答
大模型原理与实践:第一章-NLP基础概念完整指南_第2部分-各种任务(实体识别、关系抽取、文本摘要、机器翻译、自动问答)第一章 NLP基础概念完整指南第二章 Transformer 架构原理第三章 预训练语言模型第四章 大语言模型