语言模型

数智工坊4 小时前
论文阅读·人工智能·算法·语言模型·机器人·无人机
【Inner Monologue论文阅读】: 首次将大语言模型嵌入机器人控制闭环,实现自我反思和动态行为调整想象一下,你让机器人去厨房拿一瓶可乐。传统的机器人会怎么做?它会生成一个僵硬的计划:1. 走到厨房 2. 拿起可乐 3. 拿给你。然后就一条路走到黑——如果可乐不在桌子上,它会傻站在那里;如果第一次没拿起来,它会直接放弃;如果冰箱里只有雪碧,它完全不知道该怎么办。
LCG元7 小时前
人工智能·语言模型
大模型微调指南:从数据处理到工业落地全解析当前通用大模型已经解决了通用场景的基础能力问题,但针对垂直行业场景,依然需要通过微调来对齐业务需求,解决幻觉、专业知识不足等问题。很多开发爱好者和企业工程师都卡在了「从实验性调参到工业级落地」的环节,要么缺少完整流程说明,要么代码无法直接运行,本文梳理从数据处理到生产部署的全流程,所有步骤可复现,新人小白也能跟着一步步落地,企业可直接复用这套方案。
AI技术控7 小时前
人工智能·语言模型·自然语言处理·langchain·nlp
NeuroH-TGL 论文解读:面向脑疾病诊断的神经异质性引导时序图学习方法论文标题:《NeuroH-TGL: Neuro-Heterogeneity Guided Temporal Graph Learning Strategy for Brain Disease Diagnosis》 会议:NeurIPS 2025 研究方向:动态功能脑网络、时序图学习、图神经网络、脑疾病诊断、fMRI 分析 本文基于上传论文原文整理。:contentReference[oaicite:0]{index=0}
IceSugarJJ7 小时前
语言模型·微信小程序·github
Open-AutoGLM项目学习Open-AutoGLM是一个面向自动化自然语言处理任务的开源框架,专为简化大语言模型(LLM)在实际业务场景中的部署与调优而设计。其核心机制融合了提示工程自动化、动态上下文优化与轻量化推理引擎,使开发者无需深入模型内部结构即可实现高效的任务适配。
xiaoyuchidayuma10 小时前
笔记·语言模型
【cherrystudio接入硅基流动的DeepSeek R1大模型API】登录网址,选择windows https://cherry-ai.com/直接下一步就行第一次登录需要联网,在打开的网址上注册账号
Jump 不二10 小时前
人工智能·语言模型·系统架构
AI Agent Skill 系统架构全解析:SKILL 规范与框架实现最近刚好需要自己实现一套完整的 Skills 运行框架,所以把官方协议、源码、实现方案都啃了一遍。写这篇文章,就是想把自己踩的坑、悟出来的门道记录下来。对做 Agent 开发、做 skill 开发,或者单纯想搞懂 “我的 skill 为什么效果不稳定” 的人,应该都有帮助。
AI人工智能+11 小时前
深度学习·语言模型·ocr·文档抽取
基于高精度OCR与大模型融合的智能文档抽取系统,著提升政务服务效率,推动从“自动化“向“智能化“转型在政务服务数字化转型的浪潮中,政务服务中心作为服务群众和企业的最前沿,每日需处理海量各类申请表单,涵盖企业开办、社保参保、不动产登记、民生福利申领等多个领域。这些申请表单形式多样,既有标准化的结构化表格,也有因业务特性衍生的半结构化表格,传统人工录入与处理模式面临效率低下、误差率高、信息流转不畅等诸多痛点,已成为制约政务服务效能提升的关键瓶颈。
风落无尘1 天前
gpt·rnn·语言模型·transformer
第九章《语言与理解》 完整学习资料本资料为《智能重生:从垃圾堆到AI工程师》第九章的配套学习内容。 阅读小说原文:第九章《语言与理解》 专栏总目录:《智能重生》AI工程师成长小说专栏
malog_1 天前
人工智能·深度学习·机器学习·ai·语言模型
大语言模型后训练全解析本文系统阐述了大语言模型(LLM)从预训练基础模型到对齐人类需求的 AI 助手的核心后训练流程,明确了后训练与传统微调的区别,拆解了 SFT、DPO、GRPO 三个核心阶段的原理、实现与实践要点,并梳理了后训练技术的发展历程与落地考量。
神秘的土鸡1 天前
ai·语言模型·agent
Agent 落地:贴合健身真实场景的 AI 人物跟练方案目录一、健身 Agent:演示好看,真实场景难用二、健身场景适配:单向演示 vs 实时跟练三、为什么选魔珐星云SDK?
qq_525513751 天前
深度学习·学习·语言模型
# 第七章 指令微调学习(四) 7.6基于指令数据对大语言模型进行微调3. 训练模型:初始化优化器、设置训练轮数,根据第7.5节中讨论的第一个验证集指令(val_data[0])来定义评估频率及初始上下文,以便在训练过程中评估生成的LLM响应。
玄米乌龙茶1231 天前
人工智能·笔记·语言模型
LLM成长笔记(四):大语言模型(LLM)基础认知大语言模型(LLM)是当前 AI 浪潮的核心。这篇博客从实际问题出发,用生活化类比建立直觉,通过术语详解深入概念本质,再用原理剖析、图解演示和可运行代码带你一步步理解。每一个概念都力求让初学者也能完全看懂,并指明它们在 AI 应用开发中的实际用途。
Yingjun Mo1 天前
人工智能·语言模型·自然语言处理
(二) LLM探索能力-1. 大语言模型能够进行上下文探索吗?如果想让模型学会“预测房价”,你通常需要收集大量数据,针对“房价预测”这个任务对模型进行微调(Fine-tuning)。这意味着你要修改模型的权重(参数),这是一个昂贵且持久的过程。(传统机器学习逻辑)
tzc_fly1 天前
人工智能·语言模型·自然语言处理
LLaDA2.0-Uni:基于扩散语言模型的统一多模态理解和生成LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model,这是一篇非常全面且具有前瞻性的多模态大模型(Multimodal Foundation Model)研究论文。论文介绍了 LLaDA2.0-Uni,这是一个基于离散扩散模型(Discrete Diffusion LLM)的统一多模态框架,成功地将“图像理解”和“图像生成/编辑”任务统一到了同一个原生架构中。
AI技术控1 天前
人工智能·语言模型·自然语言处理·langchain·nlp
LangChain 是什么?从零开始学会 LangChain 的工程实践指南在大模型应用开发中,很多人第一次接触 LangChain,是因为想快速做一个“基于大模型的应用”:例如知识库问答、RAG 检索增强生成、智能客服、Agent 工具调用、文档总结、SQL 问答、企业内部助手等。
Honey Ro1 天前
深度学习·语言模型·llm·rag
浅析大模型 Agent 的记忆(Memory)机制💡 声明:个人观点,仅供参考。在目前的 AI 面试中,如果你去面 Agent 架构师 或 LLM 应用专家 岗位,“记忆机制(Memory)” 几乎是必问的硬核场景题。
小明同学011 天前
服务器·c++·后端·计算机网络·语言模型
C++后端项目:统一大模型接入 SDK(五)目录一、开篇二、ChatSDK — 外观模式2.1 为什么需要外观模式?2.2 initModels — 注册 + 初始化
renhongxia12 天前
人工智能·gpt·生成对抗网络·语言模型·自然语言处理·开源
从GPT到开源大模型2022年底,ChatGPT横空出世。普通人第一次发现,AI不仅能对答如流,还能写诗、编程、改论文。GPT系列模型展现出的通用智能,让全世界屏住呼吸。它基于海量数据训练,参数量高达数千亿,几乎所有自然语言任务都不在话下。
一勺菠萝丶2 天前
人工智能·语言模型·embedding
常见 AI 模型类型整理:大语言模型、聊天模型、推理模型、Embedding 模型到底有什么区别?很多人刚开始接触 AI 的时候,最容易混淆几个概念:这些名字看起来都和 AI 有关,但它们的作用完全不一样。
U盘失踪了2 天前
语言模型·embedding
Embedding 模型 和 大语言模型(LLM)的区别Embedding模型 → 一个超级图书管理员。他能把每本书的核心思想提炼成一张“索书号”,并摆放得井井有条。你问他“哪里有讲机器学习的书?”,他立刻就能给你找出最相关的几本,但他不会自己写一本新书。