语言模型

杨_晨17 分钟前
人工智能·机器学习·ai·语言模型·batch
大模型微调训练FAQ - Batch Size与参数配置A: 主要体现在以下几个方面:1. 显存使用 💾影响机制:2. 训练速度 ⚡3. 模型效果 🎯 梯度稳定性:
阿杰学AI1 小时前
人工智能·ai·语言模型·自然语言处理·aigc·nsp·下一状态预测
AI核心知识68——大语言模型之NSP (简洁且通俗易懂版)下一状态预测 (NSP,Next State Prediction) 是从 大语言模型 (LLM) 向 世界模型 (World Model) 进化时的一个核心概念。
狮子座明仔13 小时前
人工智能·深度学习·语言模型·自然语言处理
Plan-and-Act:让AI智能体学会“先想后做“📖 论文标题:Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks 👥 作者:Lutfi Eren Erdogan, Zhengyuan Yang, Linjie Li, Shuohang Wang, Ahmed Awadallah, Chenguang Zhu, Liangke Gui, Lijuan Wang 🏫 机构:Microsoft 📅 发表:arXiv 2503.09572 🔗 论文链接:https://a
lixin55655615 小时前
java·人工智能·pytorch·python·深度学习·语言模型
基于迁移学习的图像风格增强器📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
renhongxia115 小时前
人工智能·信息可视化·语言模型·自然语言处理·数据分析·机器人
多机器人环境监测中的异质性,用于解决时间冲突任务在多机器人系统执行持续性任务时,若需中断处理紧急的时效性任务,常面临性能平衡的挑战。本研究以区域巡逻与异常无线电信号定位的双重任务场景为例,探讨这一平衡问题。
淬炼之火21 小时前
人工智能·语言模型·自然语言处理
图文跨模态融合基础 2 :LLM工程总览1.回顾LLM原理2. LLM工程化挑战2.1. 自然语言(NLP)歧义2.2. 成本和延迟2.3. 提示、微调、替代方案
武汉唯众智创1 天前
人工智能·语言模型·自然语言处理·大语言模型·自助式 ai 心理咨询系统·ai 心理咨询系统·ai 心理咨询
基于大语言模型的自助式 AI 心理咨询系统1.1 时代背景:传统心理咨询的痛点与 AI 技术的破局在快节奏、高压力的现代社会,心理健康问题日益凸显,焦虑、抑郁等情绪障碍困扰着众多人群 。据世界卫生组织(WHO)数据,全球约有 10 亿人正遭受精神健康问题的折磨,每 40 秒就有一人因自杀离世 。在中国,抑郁症患者超 9500 万,青少年抑郁检出率达 24.6%。这些数字背后,是对心理健康服务的迫切需求。
Benaldo_Y1 天前
人工智能·语言模型·自然语言处理
大语言模型(LLM)以deepseek举例: 通过类比,学习LLM改进于Transformer的一些方法MoE 是一种稀疏激活的神经网络架构设计。在现代大语言模型(LLM)中,MoE 被用于在不显著增加计算成本的前提下大幅提升模型容量。 这里和之前用的Feed Forward Net(FFN)对比一下: 在 Transformer 中,每个 FFN 层通常由两个线性变换 + 激活函数组成, 这两个全连接的参数量在大模型下太大了 假如有2048的参数量,几乎有204820482的参数量(忽略b),忒多了 所有 token 都要
chinesegf1 天前
人工智能·语言模型·自然语言处理
嵌入模型和大语言模型的关系「嵌入模型(ONNXMiniLM_L6_V2/bert-base-chinese/nomic-embed-text)」和「大语言模型(qwen:1.5b/deepseek-r1)」的本质区别 ——嵌入模型只有「编码能力」(文本→向量),无推理 / 生成能力;而 qwen:1.5b/deepseek-r1 是具备「推理、对话、生成能力」的大语言模型(LLM),两者在 RAG(检索增强生成)等场景中是「分工协作」的关系,下面用通俗的语言拆解清楚:
自己的九又四分之三站台1 天前
人工智能·语言模型·embedding
8:大语言模型是无状态以及大语言模型的基石Embedding下面我从工程与原理两个层面,系统性地说明你提到的两个核心概念:① 大语言模型为什么是“无状态”的 ② Embedding 为什么是大语言模型的基石
Loo国昌1 天前
人工智能·后端·算法·语言模型·架构
【LangChain1.0】第十四阶段:Agent最佳设计模式与生产实践版本: LangChain 1.0.7+ | LangGraph 1.0.3+ 定位: Agent系统从设计到生产的完整实践指南 更新: 2025-11-20
独隅1 天前
linux·运维·语言模型
Ollama 在 Linux 上的完整安装与使用指南:从零部署到熟练运行大语言模型本文详细介绍了在 Linux 系统上安装和使用 Ollama 大语言模型平台的完整指南。主要内容包括:安装前的系统要求检查、两种安装方式(自动脚本安装和手动定制安装)、基本使用方法(模型下载运行和管理)、以及进阶应用(REST API调用、Python集成、Docker部署和Web图形界面)。文章还提供了常见问题解决方案和性能优化建议,帮助用户从零开始搭建本地大模型平台,适用于不同技术水平的开发者。
玄同7651 天前
人工智能·git·语言模型·gitee·github·ai编程·mcp
让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX :mcp-documents-reader 工具使用指南【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
lixin5565562 天前
java·人工智能·pytorch·python·深度学习·语言模型
基于深度生成对抗网络的高质量图像生成模型研究与实现📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
KG_LLM图谱增强大模型2 天前
语言模型·知识图谱
SentGraph:用于多跳检索增强问答的层次化句子图谱本文提出SentGraph框架,一种基于句子级图谱的检索增强生成方法,专门用于解决多跳问答任务。通过引入修辞结构理论(RST)建模句子间细粒度逻辑关系,构建层次化句子图谱,实现精准的证据检索。实验表明,该方法在降低69%输入token消耗的同时,显著提升了多跳问答准确性。
lixin5565562 天前
java·人工智能·pytorch·python·深度学习·语言模型
基于神经网络的音乐生成增强器📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
bleuesprit2 天前
人工智能·语言模型
Lora训练的safetensor模型合并成GGUF在上一期博客中,我们介绍了如何进行lora训练, LLM语言模型Lora微调本期我们介绍如何合并训练后的模型
KG_LLM图谱增强大模型2 天前
人工智能·语言模型·自然语言处理
多智能体大语言模型框架赋能医学等多领域低资源命名实体识别:知识检索、消歧与反思分析的创新实践本文提出KDR-Agent,一种创新性多智能体大语言模型框架,通过知识检索、实体消歧和反思分析三大机制,有效解决多领域低资源场景下的命名实体识别难题,显著提升模型在未见领域的泛化能力,为人工智能在信息抽取领域的应用提供新范式。
SmartBrain2 天前
人工智能·语言模型
RAG、RAGFlow 与 Agentic RAG技术对比分析目录项目概况与研究背景一、技术架构层面的核心差异分析1.1 基础 RAG:经典 "检索 - 生成" 架构的特征与局限
老鱼说AI2 天前
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
论文精读第八期:Quiet-STaR 深度剖析:如何利用并行 Attention 与 REINFORCE 唤醒大模型的“潜意识”?以前的 CoT(思维链)像是在教模型“应试”,必须有题目、有提示才肯推理。而 Quiet-STaR 的出现,标志着大模型开始学会了“像学者一样阅读”——在海量的互联网文本中,通过预测未来的文字,自发地学会了“三思而后行”。这篇博客将剥开复杂的数学外衣,通俗解读 DeepMind/Stanford 这一开创性工作:当 AI 拥有了看不见的“内心独白”,通往 AGI 的路是否缩短了一程?