nlp

中科逸视OCR3 天前
nlp·ocr·发票识别
当OCR遇见NLP:解析深度学习发票识别中的语义理解与关系抽取模块在数字化转型的浪潮中,企业每天都需要处理海量的纸质和电子发票。传统的人工录入方式效率低下、成本高昂且易出错,已成为财务流程自动化的巨大瓶颈。随着人工智能技术的成熟,基于深度学习的智能发票识别技术应运而生,正彻底变革着企业的财务和数据管理方式。
fanstuck3 天前
人工智能·语言模型·自然语言处理·nlp·prompt
Prompt提示工程上手指南(六):AI避免“幻觉”(Hallucination)策略下的Prompt这是本系列的第六篇文章,在这篇中我们需要了解并处理语言模型最为棘手的问题,也就是AI"幻觉”(Hallucination)问题。在大型语言模型和聊天机器人的世界里,"幻觉"现象指的是这些智能系统有时会基于给定的提示,创造出并不存在的信息或事实。简而言之,就是这些先进的AI在对话过程中可能会偶尔"脱轨",提供与问题无关的回答,或者讲述一些与现实不符的内容。这种现象反映了AI在理解和生成语言时,尽管它们通常表现出色,但有时仍会犯错或产生与期望不符的输出。
kida_yuan3 天前
python·数据分析·nlp
【从零开始】14. 数据评分与筛选书接上回,上一章我们完成了“非问答”类数据的数据增强后库内增加了 200w 数据。接下来,应该继续做“数据蒸馏”从商用大模型那里提取垂直领域的数据,但这样无疑违背了“零成本”的初衷了。
nju_spy4 天前
人工智能·gpt·nlp·大语言模型·zero-shot·transformer架构·半监督训练
GPT 系列论文1-2 两阶段半监督 + zero-shot promptGPT,GPT-2,GPT-3 论文精读【论文精读】--B站GPT前三和 Transformer还有BERT 时间轴。
ACEEE12224 天前
人工智能·pytorch·python·深度学习·机器学习·nlp·transformer
Stanford CS336 | Assignment 2 - FlashAttention-v2 Pytorch & Triotn实现在Transformer架构的工程优化中,注意力机制的计算效率是核心瓶颈之一。标准的缩放点积注意力(Scaled Dot-Product Attention)存在 O(T²d) 的时间复杂度和内存占用问题——当序列长度T超过1k时,显存消耗会急剧增加,甚至导致训练中断。为解决这一问题,FlashAttention-v2通过分块计算和LogSumExp数值优化,在保持精度的前提下,将显存占用降低至O(Td),同时通过硬件感知优化提升计算速度。
kida_yuan6 天前
数据结构·python·nlp
【从零开始】13. 数据增强(Data Augmentation)书接上回,上一章我们简单地过了一遍如何获取训练数据并通过代码将数据保存到 Elasticsearch 中了,但是保存下来后发现数据量还是不够(总数据量 22w+),这个时候可以选择采用数据增强技术来补充训练数据。
A尘埃7 天前
人工智能·自然语言处理·nlp
NLP(自然语言处理, Natural Language Processing)让计算机能够理解、解释、操纵和生成人类语言,从而执行有价值的任务。 关注社区:Hugging Face、Papers With Code、GitHub 是现代NLP学习不可或缺的资源。许多最新模型和代码都在这里开源。
kida_yuan8 天前
python·架构·nlp
【从零开始】12. 一切回归原点各位新老朋友,好久不见了。距最后一次更新已有差不多一年的时间了。这期间发生了很多事儿,一度让我走进了人生低谷。现在,一切都已经过去,热爱分享、与君共勉仍是我的初心。一切都“从零开始”吧,这样也不错。
老姜洛克8 天前
算法·nlp
自然语言处理(NLP)之n-gram从原理到实战自然语言处理(NLP)之n-gram从原理到实战内容概要:n-gram都能做什么n-gram的数学原理
老马啸西风8 天前
性能优化·开源·nlp·github·敏感词
v0.29.2 敏感词性能优化之基本类型拆箱、装箱的进一步优化的尝试v0.29.0 敏感词性能优化提升 14 倍全过程v0.29.1 敏感词性能优化之内部类+迭代器内部类
老马啸西风9 天前
性能优化·开源·nlp·github·敏感词
v0.29.1 敏感词性能优化之内部类+迭代器内部类v0.29.0 敏感词性能优化提升 14 倍全过程v0.29.1 敏感词性能优化之内部类+迭代器内部类
Gyoku Mint9 天前
人工智能·pytorch·深度学习·神经网络·语言模型·自然语言处理·nlp
提示词工程(Prompt Engineering)的崛起——为什么“会写Prompt”成了新技能?🐾猫猫扒着屏幕:“喵?咱写的这句 Prompt 怎么又跑偏啦?明明只是想让它帮忙写一段 Python 代码,它偏要给咱写论文摘要……” 🦊狐狐眯着眼,声音带点冷意:“因为你的提示词不够清晰,模型在无限空间里乱游走了。Prompt 工程,不是随便说一句‘帮我写’就够的。”
老马啸西风11 天前
安全·开源·nlp·word·敏感词·sensitive-word
sensitive-word 敏感词性能提升14倍优化全过程 v0.28.0有一天,群里收到小伙伴提的一个问题,为什么程序 sensitive-word 第一次执行这么慢?sensitive-word-131
和鲸社区11 天前
人工智能·python·深度学习·计算机视觉·语言模型·自然语言处理·nlp
《斯坦福CS336》作业1开源,从0手搓大模型|代码复现+免环境配置人工智能领域,斯坦福CS336课程(全称:CS 336 - Foundations of Large Language Models and Their Applications)被许多学习者视为“大模型学习的必修课”,不仅因为课程本身由一流学者讲授,更因为它以从零构建大语言模型为主线,让学习者真正看清楚大模型的底层运作机制。
nju_spy13 天前
人工智能·深度学习·机器学习·nlp·tf-idf·glove·南京大学
机器学习 - Kaggle项目实践(8)Spooky Author Identification 作者识别Spooky Author Identification | KaggleApproaching (Almost) Any NLP Problem on Kaggle (参考)
Go_Zezhou14 天前
线性代数·算法·机器学习·nlp
在线性代数里聊聊word embedding最近在复习线性代数,学到线性相关、线性无关和向量空间这里,突然想到word embedding训练出来的向量是什么样呢?是否满秩?是n维空间中的m维向量(m<=n吗?)
冰糖猕猴桃15 天前
人工智能·ai·nlp·transformer
【AI - nlp】Transformer输入部分要点本篇文章主要介绍Transformer左侧输入部分三个关键细节:看不懂我在说什么?没关系,下面我们先来看一下Transformer架构中的输入部分 --> 词嵌入层 和 位置编码的一个简单的代码演示。
大千AI助手15 天前
人工智能·深度学习·神经网络·自然语言处理·nlp·机器翻译·wmt2014
WMT2014:机器翻译领域的“奥林匹克盛会“本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
胖达不服输15 天前
人工智能·python·深度学习·自然语言处理·nlp
「日拱一码」076 深度学习——自然语言处理NLP目录深度学习与NLP介绍什么是自然语言处理(NLP)?深度学习如何赋能NLP?核心概念:词嵌入(Word Embedding)
uncle_ll16 天前
nlp·wavenet·语音模型·vocoder·waveglow
李宏毅NLP-13-Vocoder无论频谱来自 TTS 还是 VC,都通过Vocoder将 “频域特征” 逆转为 “时域声波”,得到可听的语音。