语言模型

lixin55655631 分钟前
java·人工智能·pytorch·python·深度学习·语言模型
基于深度生成对抗网络的高质量图像生成模型研究与实现📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
KG_LLM图谱增强大模型1 小时前
语言模型·知识图谱
SentGraph:用于多跳检索增强问答的层次化句子图谱本文提出SentGraph框架,一种基于句子级图谱的检索增强生成方法,专门用于解决多跳问答任务。通过引入修辞结构理论(RST)建模句子间细粒度逻辑关系,构建层次化句子图谱,实现精准的证据检索。实验表明,该方法在降低69%输入token消耗的同时,显著提升了多跳问答准确性。
lixin5565563 小时前
java·人工智能·pytorch·python·深度学习·语言模型
基于神经网络的音乐生成增强器📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
bleuesprit6 小时前
人工智能·语言模型
Lora训练的safetensor模型合并成GGUF在上一期博客中,我们介绍了如何进行lora训练, LLM语言模型Lora微调本期我们介绍如何合并训练后的模型
KG_LLM图谱增强大模型7 小时前
人工智能·语言模型·自然语言处理
多智能体大语言模型框架赋能医学等多领域低资源命名实体识别:知识检索、消歧与反思分析的创新实践本文提出KDR-Agent,一种创新性多智能体大语言模型框架,通过知识检索、实体消歧和反思分析三大机制,有效解决多领域低资源场景下的命名实体识别难题,显著提升模型在未见领域的泛化能力,为人工智能在信息抽取领域的应用提供新范式。
SmartBrain7 小时前
人工智能·语言模型
RAG、RAGFlow 与 Agentic RAG技术对比分析目录项目概况与研究背景一、技术架构层面的核心差异分析1.1 基础 RAG:经典 "检索 - 生成" 架构的特征与局限
老鱼说AI8 小时前
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
论文精读第八期:Quiet-STaR 深度剖析:如何利用并行 Attention 与 REINFORCE 唤醒大模型的“潜意识”?以前的 CoT(思维链)像是在教模型“应试”,必须有题目、有提示才肯推理。而 Quiet-STaR 的出现,标志着大模型开始学会了“像学者一样阅读”——在海量的互联网文本中,通过预测未来的文字,自发地学会了“三思而后行”。这篇博客将剥开复杂的数学外衣,通俗解读 DeepMind/Stanford 这一开创性工作:当 AI 拥有了看不见的“内心独白”,通往 AGI 的路是否缩短了一程?
SmartBrain9 小时前
人工智能·语言模型·aigc
Agent 技术在医疗场景的应用研究目录一、大厂 Agent 技术最新研究成果全景分析1.1 OpenAI:从 GPT-5 到智能体生态的全面进化
臭东西的学习笔记10 小时前
人工智能·学习·语言模型
论文学习——人类抗体从通用蛋白质语言模型的高效进化人类抗体从通用蛋白质语言模型的高效进化(Brian L. Hie 1,2 , Varun R. Shanker 2,3, Duo Xu 1,2, Theodora U. J. Bruun 1,2,3, Payton A. Weidenbacher 2,4, Shaogeng Tang 1,2, Wesley Wu 5, John E. Pak5 & Peter S. Kim 1,2,5)nature biotechnology
沉淅尘10 小时前
数据库·人工智能·语言模型
Context Engineering: 优化大语言模型性能的关键策略与艺术上下文工程(Context Engineering)在 2025年中期(6月至7月)兴起的一个新术语,使 LLM (大语言模型)讨论的焦点从 Prompt Engineering 转向这个更广泛、更强大的概念:Context Engineering.
一碗甜汤ᐝ10 小时前
论文阅读·笔记·语言模型
论文阅读笔记-FastVLM: Efficient Vision Encoding for Vision Language Models论文阅读笔记。我是初学者,对很多专业知识的理解可能不够透彻,文中要是有分析不到位或者错误的地方,恳请大家不吝赐教,我会及时改正,非常感谢大家的帮助!
zhangfeng113310 小时前
人工智能·语言模型·自然语言处理
大语言模型训练不用bpe算法可以不可以 ,BPE 是算法,SentencePiece 是工具箱可以,但“不用 BPE”≠“什么都不做”,而是把 tokenizer 退化成 字符级(character-level) 或者 SMILES 字符级。 这样做确实能跑,但代价远远不只是“比较耗资源”那么简单,基本属于不可接受。给你个量化对比就明白了:
叫我:松哥11 小时前
人工智能·机器学习·信息可视化·语言模型·数据分析·flask·自动化
基于flask 智能体的教学演示文档生成及质量评价系统,集成了DeepSeek 大语言模型实现自动化文档生成和多维度质量评估本系统是一个基于 Flask 框架开发的智能化教学文档生成与质量评价平台,集成了 DeepSeek 大语言模型实现自动化文档生成和多维度质量评估。系统采用 Flask-Login 实现用户认证,SQLite 作为数据存储,Bootstrap 5 提供响应式前端界面。系统支持用户和管理员两种角色,用户可根据教学需求生成定制化文档并进行质量评价,管理员可通过管理后台对用户、文档和评价进行全面管理。系统文档采用 Markdown 渲染,支持代码高亮、表格展示和格式化下载,为教育工作者提供高效的教学内容创作工具。
lixin55655611 小时前
java·人工智能·pytorch·python·深度学习·语言模型
基于迁移学习的图像分类增强器📝分享的所有项目源码均包含(前端+后台+数据库),可做毕业设计或课程设计,欢迎留言分享问题,交流经验,白嫖勿扰🍅更多优质项目👇🏻👇🏻可评论留言获取!!
淬炼之火1 天前
人工智能·语言模型·自然语言处理
图文跨模态融合基础:大语言模型(LLM)1.LLM简介2.结构鸟瞰3.Transformer3.1. 词嵌入(Word Embedding)3.2. 循环神经网络(Recurrent Neural Networks,RNN)
zhaosuyuan1 天前
gpt·语言模型·llm·gpt-3
InstructGPT 2022详细解读InstructGPT 2022 decoder onlyInstructGPT是大语言模型对齐人类意识的里程碑工作,解决模型幻觉等问题,更能理解符合人类的期望。 核心思想:通过人类反馈feedback微调模型,使其输出更听话、更安全、更有用helpful, honest, harmless。 InstructGPT 训练分为三阶段:
SmartBrain1 天前
人工智能·语言模型·架构
战略洞察:AI 赋能三医领域的平台架构分析报告目录一、项目背景与战略目标1.1 三医数智化转型背景与机遇1.2 高质量数据集构建目标与技术路径1.3 4A 架构支撑体系与平台化需求
zhangfeng11331 天前
算法·语言模型·embedding
大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding不是。 BPE 结束后,模型拿到的已经是 整数序列(token id),下一跳直接就是 nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:
Miha_Singh1 天前
数据库·人工智能·语言模型·查询优化·查询改写
查询优化综述:《A Survey of Query Optimization in Large Language Models》在RA中,用户原始查询往往并不适合直接拿去检索:可能太短、太模糊、结构太复杂,或隐含多步推理要求,结果是:
SmartBrain1 天前
大数据·人工智能·语言模型
战略洞察:MAAS平台在三医领域的应用案例分析目录一、四大厂商 MAAS 平台技术架构深度解析1.1 阿里云 PAI 平台:全栈 AI 技术架构与医疗场景适配