自然语言处理

_ziva_2 小时前
人工智能·机器学习·自然语言处理
Layer Normalization 全解析:LLMs 训练稳定的核心密码在大语言模型(LLMs)的训练与落地过程中,“梯度消失 / 爆炸”“训练不稳定”“深层模型难收敛” 是高频痛点。而 Layer Normalization(层归一化,简称 LN)及其变体(RMS Norm、Deep Norm),正是解决这些问题的核心技术 —— 它们通过标准化网络层的输入分布,让模型参数更新更平稳、收敛更快,同时适配 NLP 任务中变长序列的特性。
来两个炸鸡腿3 小时前
人工智能·学习·自然语言处理
【Datawhale组队学习202601】Base-NLP task06 大模型训练与量化提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
小陈phd3 小时前
人工智能·语言模型·自然语言处理
大语言模型实战(十八)——基于langchain1.0 构建传统 RAG Agent:从文档到知识库的完整之旅在大模型应用中,检索增强生成(RAG,Retrieval-Augmented Generation) 是一种强大的技术,它通过将外部知识库与大模型结合,使得模型能够基于真实数据生成更准确的回答。本文将详细讲解如何使用 LangChain + LangGraph + DashScope + Milvus 的技术栈,从零开始构建一个完整的传统 RAG Agent。
阿杰学AI5 小时前
人工智能·ai·语言模型·自然语言处理·aigc·ssm·状态空间模型
AI核心知识69——大语言模型之SSM (简洁且通俗易懂版)状态空间模型 (State Space Model,简称 SSM) 是目前 AI 架构领域最热门的“潜力股”。
小陈phd1 天前
人工智能·语言模型·自然语言处理
大语言模型实战(十七)——GraphRAG(图谱检索增强生成)介绍检索增强生成(Retrieval-Augmented Generation)技术是一种结合了检索和生成两个阶段的自然语言处理技术,它由 Facebook AI 团队在 2020 年提出。这种方法的核心思想是利用大规模的预训练语言模型生成技术,并结合信息检索的策略,以改善回答的准确性和相关性。
玄同7651 天前
人工智能·python·sql·mysql·机器学习·自然语言处理·database
SQLAlchemy 模型定义完全指南:从基础到进阶的 ORM 实战【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
阿杰学AI1 天前
人工智能·ai·语言模型·自然语言处理·aigc·ntp·机械学习
AI核心知识67——大语言模型之NTP (简洁且通俗易懂版)在大语言模型(LLM)中,NTP 是 Next Token Prediction(下一个 Token 预测)的缩写。
玄同7651 天前
人工智能·python·语言模型·自然语言处理·nlp·知识图谱·token
大模型生成 Token 的原理:从文本到模型理解的 “翻译官”【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
觉醒大王1 天前
java·前端·数据库·学习·自然语言处理·学习方法·迁移学习
简单说说参考文献引用(1)首先是要不要交叉引用 1.学校的格式要求明确提出使用交叉引用→用交叉引用 2.脚注/尾注/注释→使用对应的脚注/尾注/注释 3.其他→不用交叉引用,选择文献管理工具(endnote、zotero、note express、知网研学、适配latex的BIBTEX等等)或者在文献数据库(知网/艳芳/百度学术/谷歌学术/web of science等等)选择需要的格式导出,粘贴 (2)关于参考文献部分的查重 和是否交叉引用无关,参考文献不参与查重。 怎么可以被识别为参考文献而不被标红?→将“参考文献”这四
阿里巴巴与四十个小矮人1 天前
人工智能·自然语言处理
国科大2025秋自然语言处理基础与大模型期末一、标注题----一段文字-----1、用斜线对这段文字分词2、标出这段文字里的命名实体,说明其类型3、----一句话----- 画出这句话的短语结构树
油泼辣子多加1 天前
人工智能·算法·机器学习·华为·自然语言处理
【信创】华为昇腾NLP算法训练Python >= 3.9PyTorch 2.2.1(Ascend 镜像):TransformersNumPy, pandas, scikit-learn
赋创小助手1 天前
服务器·人工智能·科技·深度学习·神经网络·microsoft·自然语言处理
Maia 200 技术拆解:微软云端 AI 推理加速器的设计取舍微软近期正式推出新一代 AI 加速器 Microsoft Azure Maia 200。作为 Maia GPU 系列的第二代产品,这款芯片从一开始就被明确定位为面向 AI 模型推理的专用加速器,而非通用训练 GPU。在官方披露的信息中,微软将 Maia 200 称为“史上部署的最高效推理系统”,并多次强调其在性能、能效以及可持续性方面的综合优势。
阿杰学AI1 天前
人工智能·ai·语言模型·自然语言处理·aigc·nsp·下一状态预测
AI核心知识68——大语言模型之NSP (简洁且通俗易懂版)下一状态预测 (NSP,Next State Prediction) 是从 大语言模型 (LLM) 向 世界模型 (World Model) 进化时的一个核心概念。
海绵宝宝de派小星1 天前
人工智能·ai·自然语言处理
NLP核心任务(分词、词性标注、命名实体识别等)自然语言处理(Natural Language Processing,简称NLP)是人工智能领域最具挑战性的方向之一。它的目标是让计算机能够理解、处理和生成人类语言。与图像处理不同,语言是高度抽象和结构化的,充满了歧义、隐喻和上下文依赖。在本文中,我们将深入探讨NLP的核心任务,这些任务是构建更复杂NLP应用的基础。
狮子座明仔2 天前
人工智能·深度学习·语言模型·自然语言处理
Plan-and-Act:让AI智能体学会“先想后做“📖 论文标题:Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks 👥 作者:Lutfi Eren Erdogan, Zhengyuan Yang, Linjie Li, Shuohang Wang, Ahmed Awadallah, Chenguang Zhu, Liangke Gui, Lijuan Wang 🏫 机构:Microsoft 📅 发表:arXiv 2503.09572 🔗 论文链接:https://a
renhongxia12 天前
人工智能·信息可视化·语言模型·自然语言处理·数据分析·机器人
多机器人环境监测中的异质性,用于解决时间冲突任务在多机器人系统执行持续性任务时,若需中断处理紧急的时效性任务,常面临性能平衡的挑战。本研究以区域巡逻与异常无线电信号定位的双重任务场景为例,探讨这一平衡问题。
淬炼之火2 天前
人工智能·语言模型·自然语言处理
图文跨模态融合基础 2 :LLM工程总览1.回顾LLM原理2. LLM工程化挑战2.1. 自然语言(NLP)歧义2.2. 成本和延迟2.3. 提示、微调、替代方案
武汉唯众智创2 天前
人工智能·语言模型·自然语言处理·大语言模型·自助式 ai 心理咨询系统·ai 心理咨询系统·ai 心理咨询
基于大语言模型的自助式 AI 心理咨询系统1.1 时代背景:传统心理咨询的痛点与 AI 技术的破局在快节奏、高压力的现代社会,心理健康问题日益凸显,焦虑、抑郁等情绪障碍困扰着众多人群 。据世界卫生组织(WHO)数据,全球约有 10 亿人正遭受精神健康问题的折磨,每 40 秒就有一人因自杀离世 。在中国,抑郁症患者超 9500 万,青少年抑郁检出率达 24.6%。这些数字背后,是对心理健康服务的迫切需求。
Benaldo_Y2 天前
人工智能·语言模型·自然语言处理
大语言模型(LLM)以deepseek举例: 通过类比,学习LLM改进于Transformer的一些方法MoE 是一种稀疏激活的神经网络架构设计。在现代大语言模型(LLM)中,MoE 被用于在不显著增加计算成本的前提下大幅提升模型容量。 这里和之前用的Feed Forward Net(FFN)对比一下: 在 Transformer 中,每个 FFN 层通常由两个线性变换 + 激活函数组成, 这两个全连接的参数量在大模型下太大了 假如有2048的参数量,几乎有204820482的参数量(忽略b),忒多了 所有 token 都要
chinesegf2 天前
人工智能·语言模型·自然语言处理
嵌入模型和大语言模型的关系「嵌入模型(ONNXMiniLM_L6_V2/bert-base-chinese/nomic-embed-text)」和「大语言模型(qwen:1.5b/deepseek-r1)」的本质区别 ——嵌入模型只有「编码能力」(文本→向量),无推理 / 生成能力;而 qwen:1.5b/deepseek-r1 是具备「推理、对话、生成能力」的大语言模型(LLM),两者在 RAG(检索增强生成)等场景中是「分工协作」的关系,下面用通俗的语言拆解清楚: