nlp

羊小猪~~19 小时前
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
LLM--BERT架构解析概述:一种基于Transformer编码器架构的预训练语言模型,通过结合Tokenization、Embedding和特定任务的输出层,能够捕捉文本的双向上下文信息。
带娃的IT创业者1 天前
人工智能·gpt·深度学习·神经网络·架构·nlp·transformer
期中总结:从神经元到 GPT——AI 架构全景回顾(Version B)📚 《从零到一造大脑:AI架构入门之旅》专栏专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块:
Learn Beyond Limits3 天前
人工智能·rnn·深度学习·神经网络·自然语言处理·nlp·lstm
长短期记忆网络|LSTM(Long Short-Term Memory)-----------------------------------------------------------------------------------------------
Learn Beyond Limits3 天前
人工智能·rnn·深度学习·神经网络·语言模型·自然语言处理·nlp
双向循环神经网络|Bi-RNN(Bidirectional Recurrent Neural Networks)-----------------------------------------------------------------------------------------------
请数据别和我作队3 天前
开发语言·经验分享·python·自然语言处理·nlp
基于 DeepSeek API 的 ASR 文本纠错脚本实战:Python 多线程批量处理 JSONL 语音转写数据在语音识别(ASR)场景中,原始转写文本经常会出现同音字错误、漏字、重复字、断句不自然等问题。尤其是在直播电商场景下,口播内容节奏快、语气随意、商品名称复杂,传统规则方法往往很难保证纠错效果。
0 14 天前
人工智能·深度学习·nlp
260401日志attention_mask是因为padding产生的静态填充和动态填充优缺点:批次大小固定,训练过程稳定,易于分布式训练,静态优点计算图固定,可能获得更好的硬件加速,缺点存在大量无效计算(填充部分),显存利用率低,长序列样本可能丢失重要信息,;动态填充优点提高计算效率,显存占用降低约 30%,保留更多序列信息,尤其适合短文本占比高的数据集,适合训练阶段,提升整体训练速度,推理阶段需要额外处理,不适合批量预测,批次长度不固定,分布式训练配置更复杂
Flying pigs~~6 天前
人工智能·深度学习·算法·大模型·nlp·bert
基于Bert的模型迁移文本分类项目一个完整的 BERT 文本分类系统,涵盖数据加载、模型训练、验证评估、模型保存、API 部署和前端展示。代码采用模块化设计,支持多卡训练(accelerate),每 100 个 batch 验证一次并保存最优模型。后续计划加入 TensorBoard 日志、单元测试和 Docker 部署
Flying pigs~~7 天前
算法·随机森林·机器学习·nlp·文本分类
基于TF_IDF和Bagging的文本分类全过程tips:该模型用于baseline!基于TF-IDF特征工程和Bagging随机森林算法(sklearn - RandomForestClassifier)实现文本分类的基线模型(Baseline Model)功能,最终目的是通过模型算法提高推荐系统的用户点击率和访问量
阿钱真强道8 天前
python·nlp·tf-idf·文本向量化·词袋模型·bow
37 Python 时序和文本:词袋模型 BoW 和 TF-IDF 到底怎么理解?上一篇主要解决了两个基础问题:但文本清洗完成之后,新的问题很快就会出现:词已经切出来了,接下来怎么让模型“看懂”这些词?
华农DrLai8 天前
数据库·人工智能·gpt·nlp·prompt·知识图谱
知识工程和知识图谱有什么区别?如何构建完整的知识体系?🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!
AI-Ming8 天前
人工智能·pytorch·深度学习·机器学习·chatgpt·nlp·gpt-3
程序员转行学习 AI 大模型: 模型微调| 附清晰概念分类本文是 程序员 转行学习AI大模型的第16个核心知识点笔记,附清晰业务流程示例。 当前阶段:还在学习知识点,由点及面,从 0 到 1 搭建 AI 大模型知识体系中。 系列更新,关注我,后续会持续记录分享转行经历~
Roselind_Yi9 天前
人工智能·python·数据挖掘·nlp·gnn·情感分析·loss
多模态数据挖掘前沿:生物医学与情感分析领域论文深度解析在人工智能与大数据技术飞速发展的当下,多模态数据因能更全面、立体地刻画研究对象,已成为科研领域的核心研究方向。本文将深度解析两篇聚焦多模态数据挖掘的重磅论文——《多模态生物数据分析与挖掘研究》与《多模态情感分析算法研究》,从研究背景、核心策略、技术实现到未来展望,完整呈现其研究脉络与创新价值,为相关领域从业者提供参考。
极光代码工作室9 天前
人工智能·python·深度学习·神经网络·nlp
基于深度学习的中文文本情感分析系统随着社交媒体、电商评论、新闻舆情等中文文本数据呈爆炸式增长,自动识别用户表达的情感倾向(如正面、负面、中性)已成为自然语言处理(NLP)领域的重要研究方向与落地需求。传统基于词典或机器学习的方法在中文语境下面临分词歧义、语义组合性弱、上下文依赖建模不足等瓶颈。本文设计并实现了一套端到端的中文文本情感分析系统,融合预训练语言模型(BERT)、双向长短期记忆网络(BiLSTM)与注意力机制(Attention),构建层次化语义建模架构。系统采用THUCNews、ChnSentiCorp和自建微博评论数据集进行
华农DrLai10 天前
人工智能·算法·llm·nlp·prompt·知识图谱
什么是知识图谱?实体、关系、属性分别是什么?🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!
_小雨林11 天前
人工智能·nlp·bert
Hugging Face生态,包括Datasets、Tokenizers、Transformers的API使用,预训练模型+微调案例目录一、Hugging Face1、模型加载1.1、AutoModel类1.2、AutoModelForXXX类
Hello world.Joey12 天前
人工智能·深度学习·神经网络·自然语言处理·nlp·aigc·transformer
Transformer解读**前馈神经网络主要是增强模型的非线性表达性你之前学的:输入 × 权重 + 偏置全是 线性计算(就是加减乘)。
belldeep12 天前
python·自然语言处理·nlp·spacy
python:spaCy 工业级 NLP 库spaCy 是 Python 生态中最主流、最适合生产环境的工业级 NLP 库,主打速度快、API简洁、开箱即用,支持分词、词性标注、NER、依存句法、词向量等全套 NLP 能力。
程序员lm13 天前
python·nlp
从0-1体验本地部署小模型本文档面向新手,手把手教你使用 Ollama 在本地部署和运行 Google Gemma 2 2B 轻量级模型
小马过河R15 天前
人工智能·macos·大模型·nlp·agent·openclaw·龙虾
小白沉浸式本地Mac小龙虾OpenClaw部署安装教程3月5日公网已超22万OpenClaw部署实例,一发不可收拾。3月6日‌,腾讯在‌深圳腾讯大厦楼下‌举办过一次临时装机活动,引发近千人排队,之后国内兴起龙虾提供商大战。 早在2月份小龙虾开始火爆,小马曾经写过一篇《初探来会会OpenClaw这只龙虾》,简单阐述了小龙虾是什么以及如何安装。有小伙伴觉得过于简陋了,那行,安排!今天就来沉浸式体验下本地Mac小龙虾OpenClaw的部署安装。
华农DrLai16 天前
人工智能·深度学习·大模型·nlp·prompt
什么是Prompt注入攻击?为什么恶意输入能操控AI行为?🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!