语言模型

lixin5565561 小时前
java·人工智能·pytorch·python·深度学习·语言模型
基于迁移学习的图像风格增强器📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
renhongxia11 小时前
人工智能·信息可视化·语言模型·自然语言处理·数据分析·机器人
多机器人环境监测中的异质性,用于解决时间冲突任务在多机器人系统执行持续性任务时,若需中断处理紧急的时效性任务,常面临性能平衡的挑战。本研究以区域巡逻与异常无线电信号定位的双重任务场景为例,探讨这一平衡问题。
淬炼之火6 小时前
人工智能·语言模型·自然语言处理
图文跨模态融合基础 2 :LLM工程总览1.回顾LLM原理2. LLM工程化挑战2.1. 自然语言(NLP)歧义2.2. 成本和延迟2.3. 提示、微调、替代方案
武汉唯众智创8 小时前
人工智能·语言模型·自然语言处理·大语言模型·自助式 ai 心理咨询系统·ai 心理咨询系统·ai 心理咨询
基于大语言模型的自助式 AI 心理咨询系统1.1 时代背景:传统心理咨询的痛点与 AI 技术的破局在快节奏、高压力的现代社会,心理健康问题日益凸显,焦虑、抑郁等情绪障碍困扰着众多人群 。据世界卫生组织(WHO)数据,全球约有 10 亿人正遭受精神健康问题的折磨,每 40 秒就有一人因自杀离世 。在中国,抑郁症患者超 9500 万,青少年抑郁检出率达 24.6%。这些数字背后,是对心理健康服务的迫切需求。
Benaldo_Y8 小时前
人工智能·语言模型·自然语言处理
大语言模型(LLM)以deepseek举例: 通过类比,学习LLM改进于Transformer的一些方法MoE 是一种稀疏激活的神经网络架构设计。在现代大语言模型(LLM)中,MoE 被用于在不显著增加计算成本的前提下大幅提升模型容量。 这里和之前用的Feed Forward Net(FFN)对比一下: 在 Transformer 中,每个 FFN 层通常由两个线性变换 + 激活函数组成, 这两个全连接的参数量在大模型下太大了 假如有2048的参数量,几乎有204820482的参数量(忽略b),忒多了 所有 token 都要
chinesegf9 小时前
人工智能·语言模型·自然语言处理
嵌入模型和大语言模型的关系「嵌入模型(ONNXMiniLM_L6_V2/bert-base-chinese/nomic-embed-text)」和「大语言模型(qwen:1.5b/deepseek-r1)」的本质区别 ——嵌入模型只有「编码能力」(文本→向量),无推理 / 生成能力;而 qwen:1.5b/deepseek-r1 是具备「推理、对话、生成能力」的大语言模型(LLM),两者在 RAG(检索增强生成)等场景中是「分工协作」的关系,下面用通俗的语言拆解清楚:
自己的九又四分之三站台9 小时前
人工智能·语言模型·embedding
8:大语言模型是无状态以及大语言模型的基石Embedding下面我从工程与原理两个层面,系统性地说明你提到的两个核心概念:① 大语言模型为什么是“无状态”的 ② Embedding 为什么是大语言模型的基石
Loo国昌10 小时前
人工智能·后端·算法·语言模型·架构
【LangChain1.0】第十四阶段:Agent最佳设计模式与生产实践版本: LangChain 1.0.7+ | LangGraph 1.0.3+ 定位: Agent系统从设计到生产的完整实践指南 更新: 2025-11-20
独隅10 小时前
linux·运维·语言模型
Ollama 在 Linux 上的完整安装与使用指南:从零部署到熟练运行大语言模型本文详细介绍了在 Linux 系统上安装和使用 Ollama 大语言模型平台的完整指南。主要内容包括:安装前的系统要求检查、两种安装方式(自动脚本安装和手动定制安装)、基本使用方法(模型下载运行和管理)、以及进阶应用(REST API调用、Python集成、Docker部署和Web图形界面)。文章还提供了常见问题解决方案和性能优化建议,帮助用户从零开始搭建本地大模型平台,适用于不同技术水平的开发者。
玄同76510 小时前
人工智能·git·语言模型·gitee·github·ai编程·mcp
让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX :mcp-documents-reader 工具使用指南【个人主页:玄同765】大语言模型(LLM)开发工程师|中国传媒大学·数字媒体技术(智能交互与游戏设计)
lixin5565561 天前
java·人工智能·pytorch·python·深度学习·语言模型
基于深度生成对抗网络的高质量图像生成模型研究与实现📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
KG_LLM图谱增强大模型1 天前
语言模型·知识图谱
SentGraph:用于多跳检索增强问答的层次化句子图谱本文提出SentGraph框架,一种基于句子级图谱的检索增强生成方法,专门用于解决多跳问答任务。通过引入修辞结构理论(RST)建模句子间细粒度逻辑关系,构建层次化句子图谱,实现精准的证据检索。实验表明,该方法在降低69%输入token消耗的同时,显著提升了多跳问答准确性。
lixin5565561 天前
java·人工智能·pytorch·python·深度学习·语言模型
基于神经网络的音乐生成增强器📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
bleuesprit1 天前
人工智能·语言模型
Lora训练的safetensor模型合并成GGUF在上一期博客中,我们介绍了如何进行lora训练, LLM语言模型Lora微调本期我们介绍如何合并训练后的模型
KG_LLM图谱增强大模型1 天前
人工智能·语言模型·自然语言处理
多智能体大语言模型框架赋能医学等多领域低资源命名实体识别:知识检索、消歧与反思分析的创新实践本文提出KDR-Agent,一种创新性多智能体大语言模型框架,通过知识检索、实体消歧和反思分析三大机制,有效解决多领域低资源场景下的命名实体识别难题,显著提升模型在未见领域的泛化能力,为人工智能在信息抽取领域的应用提供新范式。
SmartBrain1 天前
人工智能·语言模型
RAG、RAGFlow 与 Agentic RAG技术对比分析目录项目概况与研究背景一、技术架构层面的核心差异分析1.1 基础 RAG:经典 "检索 - 生成" 架构的特征与局限
老鱼说AI1 天前
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
论文精读第八期:Quiet-STaR 深度剖析:如何利用并行 Attention 与 REINFORCE 唤醒大模型的“潜意识”?以前的 CoT(思维链)像是在教模型“应试”,必须有题目、有提示才肯推理。而 Quiet-STaR 的出现,标志着大模型开始学会了“像学者一样阅读”——在海量的互联网文本中,通过预测未来的文字,自发地学会了“三思而后行”。这篇博客将剥开复杂的数学外衣,通俗解读 DeepMind/Stanford 这一开创性工作:当 AI 拥有了看不见的“内心独白”,通往 AGI 的路是否缩短了一程?
SmartBrain1 天前
人工智能·语言模型·aigc
Agent 技术在医疗场景的应用研究目录一、大厂 Agent 技术最新研究成果全景分析1.1 OpenAI:从 GPT-5 到智能体生态的全面进化
臭东西的学习笔记1 天前
人工智能·学习·语言模型
论文学习——人类抗体从通用蛋白质语言模型的高效进化人类抗体从通用蛋白质语言模型的高效进化(Brian L. Hie 1,2 , Varun R. Shanker 2,3, Duo Xu 1,2, Theodora U. J. Bruun 1,2,3, Payton A. Weidenbacher 2,4, Shaogeng Tang 1,2, Wesley Wu 5, John E. Pak5 & Peter S. Kim 1,2,5)nature biotechnology
沉淅尘1 天前
数据库·人工智能·语言模型
Context Engineering: 优化大语言模型性能的关键策略与艺术上下文工程(Context Engineering)在 2025年中期(6月至7月)兴起的一个新术语,使 LLM (大语言模型)讨论的焦点从 Prompt Engineering 转向这个更广泛、更强大的概念:Context Engineering.