nlp

user_admin_god4 天前
java·人工智能·自然语言处理·nlp·idea
Opencode常见问题与优化排查本篇整理大家在使用AI编码工具的时候经常遇到的一些问题,如有补充。🔌确定安装成功后运行命令却找不到命令:优先安装目录是否真的存在下载的文件信息,然后就是配置环境变量。🔌
深圳市快瞳科技有限公司5 天前
nlp·ocr
医保OCR与医保审核系统融合:智能校验规则设计与实现传统医保审核依赖人工录入、逐条核对,存在效率低、易出错、政策适配慢等核心痛点。本文聚焦医保OCR与医保审核系统的深度融合,详细讲解结构化信息抽取、配置化规则引擎、自动化校验逻辑的工程实现方案,内容兼顾理论与实战,可直接为医保审核数字化、智能化升级提供落地参考。
王_teacher6 天前
人工智能·rnn·nlp
RNN 循环神经网络 计算过程(通俗+公式版+运行实例)RNN 的核心是对序列数据按时间步依次计算,每个时刻都复用同一套权重,并把上一时刻的状态传给下一时刻。
Luca_kill9 天前
人工智能·python·机器学习·nlp·舆情监控
实战指南:用 Python + NLP 搭建一套轻量级 AI 舆情监控系统在信息爆炸的 2026 年,舆情风险已成为企业品牌管理的“头号杀手”。传统的关键词匹配早已无法应对多模态、碎片化的传播环境。作为一名技术负责人,如何快速构建一套具备情感分析、热点聚类和实时预警能力的 AI 舆情系统?本文将带你通过 Python 与主流 NLP 模型,落地一套工程化方案。
墨心@10 天前
人工智能·自然语言处理·nlp·datawhale·cs336·组队学习
Byte-Pair Encoding (BPE) TokenizerUnicode是一种文本编码标准,它将字符映射到整数代码点。(2024年9月发布),该标准在168个脚本中定义了154,998个字符。(通常表示为U+0073,其中U+是常规前缀,0073是十六进制的115),字符“”的代码点为29275。在Python中,你可以使用ord()函数将单个Unicode字符转换为它的整数表示。chr()函数将整数Unicode码位转换为具有相应字符的字符串。
Shen Planck11 天前
nlp·大语言模型·baai·语义相似度
BAAI/bge-m3部署磁盘不足?模型缓存清理操作指南你刚拉取完 BAAI/bge-m3 镜像,兴冲冲启动服务,准备测试语义相似度分析——结果系统突然报错:“No space left on device”? 或者更隐蔽些:WebUI能打开,但第一次点击“分析”就卡住十几秒,接着提示加载失败、内存溢出,甚至容器自动退出?
xcLeigh12 天前
人工智能·ai·自然语言处理·重构·大模型·nlp·标书
AI标书底层技术全解析:NLP+大模型落地,喜鹊标书AI如何重构投标效率AI标书底层技术,本质是一套将招标文件解析、评分点映射、大纲生成、正文写作与合规审核串成自动化闭环的专业系统,由 OCR/NLP、行业大模型、RAG 知识库与规则引擎协同完成,替代资深投标专家的完整工作流。
华农DrLai14 天前
数据库·人工智能·大模型·nlp·prompt
怎么用大模型生成推荐的训练数据?Data Augmentation怎么做?🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!
极光代码工作室17 天前
深度学习·nlp·bert·文本分类
基于BERT的新闻文本分类系统随着互联网信息爆炸式增长,新闻资讯日均产量超千万条,人工审核与归类已无法满足时效性与准确性需求。传统机器学习方法(如TF-IDF+SVM)在语义理解能力上存在显著瓶颈,难以捕捉上下文依赖与隐含情感倾向。近年来,预训练语言模型(PLM)尤其是BERT(Bidirectional Encoder Representations from Transformers)凭借其双向注意力机制与深层上下文建模能力,在自然语言理解任务中展现出革命性性能提升。本文设计并实现了一套端到端的基于BERT的新闻文本分类系统,面向
Learn Beyond Limits18 天前
人工智能·神经网络·机器学习·ai·自然语言处理·nlp·机器翻译
神经机器翻译|Neural Machine Translation(NMT)-----------------------------------------------------------------------------------------------
羊小猪~~19 天前
大模型·llm·nlp·多模态·多模态大模型·vit·ai算法
LLM--VIT简介论文精度视频:VIT论文精度,这里做简要概述CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
lin_dec+20 天前
nlp·transformer·vllm·大模型推理·kv cache
KV Cache:大模型推理加速的关键技术目录1、为什么需要 KV Cache?先搞懂大模型的文本生成模式2、不使用 KV Cache 时,到底有多少冗余计算?
Learn Beyond Limits20 天前
人工智能·rnn·深度学习·神经网络·机器学习·自然语言处理·nlp
多层循环神经网络|Multi-layer RNNs-----------------------------------------------------------------------------------------------
羊小猪~~21 天前
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
LLM--BERT架构解析概述:一种基于Transformer编码器架构的预训练语言模型,通过结合Tokenization、Embedding和特定任务的输出层,能够捕捉文本的双向上下文信息。
带娃的IT创业者21 天前
人工智能·gpt·深度学习·神经网络·架构·nlp·transformer
期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)📚 《从零到一造大脑:AI架构入门之旅》专栏专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块:
Learn Beyond Limits23 天前
人工智能·rnn·深度学习·神经网络·自然语言处理·nlp·lstm
长短期记忆网络|LSTM(Long Short-Term Memory)-----------------------------------------------------------------------------------------------
Learn Beyond Limits23 天前
人工智能·rnn·深度学习·神经网络·语言模型·自然语言处理·nlp
双向循环神经网络|Bi-RNN(Bidirectional Recurrent Neural Networks)-----------------------------------------------------------------------------------------------
请数据别和我作队23 天前
开发语言·经验分享·python·自然语言处理·nlp
基于 DeepSeek API 的 ASR 文本纠错脚本实战:Python 多线程批量处理 JSONL 语音转写数据在语音识别(ASR)场景中,原始转写文本经常会出现同音字错误、漏字、重复字、断句不自然等问题。尤其是在直播电商场景下,口播内容节奏快、语气随意、商品名称复杂,传统规则方法往往很难保证纠错效果。
0 124 天前
人工智能·深度学习·nlp
260401日志attention_mask是因为padding产生的静态填充和动态填充优缺点:批次大小固定,训练过程稳定,易于分布式训练,静态优点计算图固定,可能获得更好的硬件加速,缺点存在大量无效计算(填充部分),显存利用率低,长序列样本可能丢失重要信息,;动态填充优点提高计算效率,显存占用降低约 30%,保留更多序列信息,尤其适合短文本占比高的数据集,适合训练阶段,提升整体训练速度,推理阶段需要额外处理,不适合批量预测,批次长度不固定,分布式训练配置更复杂
Flying pigs~~1 个月前
人工智能·深度学习·算法·大模型·nlp·bert
基于Bert的模型迁移文本分类项目一个完整的 BERT 文本分类系统,涵盖数据加载、模型训练、验证评估、模型保存、API 部署和前端展示。代码采用模块化设计,支持多卡训练(accelerate),每 100 个 batch 验证一次并保存最优模型。后续计划加入 TensorBoard 日志、单元测试和 Docker 部署