语言模型

眼镜哥(with glasses)17 分钟前
人工智能·笔记·语言模型
0215笔记-语言模型,提问范式与 TokenLLM 的训练本质是以 “预测下一个词” 为目标的监督学习,核心步骤如下:基础语言模型(Base LLM)通过反复预测下一个词来训练的方式进行训练,没有明确的目标导向。因此,如果给它一个开放式的 prompt ,它可能会通过自由联想生成戏剧化的内容。而对于具体的问题,基础语言模型也可能给出与问题无关的回答。例如,给它一个 Prompt ,比如”中国的首都是哪里?“,很可能它数据中有一段互联网上关于中国的测验问题列表。这时,它可能会用“中国最大的城市是什么?中国的人口是多少?”等等来回答这个问题。但实际上,
coding者在努力1 小时前
人工智能·python·语言模型·langchain
LangChain简介,最直白的介绍拥有 API Key 就像拿到了发动机,而 LangChain 就是帮你把这个发动机组装成一辆跑车的底盘和传动系统。对于如何获取API key可以看我的上一篇博客教你白嫖免费的额度,绝对够用
武汉庞小锋5 小时前
语言模型
大模型使用小结从最开始使用cursor(免费版)写函数,到现在利用本地模型做简单任务,有几点体会。写代码方面大同小异,可能是因为主要训练素材来自流行的开源代码仓库。gemma3:4b综合表现还行。有不少独立开发者说claude code收费版很厉害,目前还没试过。
狮子座明仔6 小时前
人工智能·gpt·深度学习·microsoft·语言模型·自然语言处理
REDSearcher:如何用30B参数的小模型,在深度搜索上击败GPT-o3和Gemini?论文标题:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
大模型任我行7 小时前
人工智能·语言模型·自然语言处理·论文笔记
华为:CLI任务自动生成新范式📖标题:CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion 🌐来源:arXiv, 2602.10999v1
nopSled7 小时前
人工智能·语言模型·自然语言处理
在 AlphaAvatar 中接入 MCP:统一工具入口 + 并行调度的工程实践⚠️ 如果你对 实时 Agent / 数字人 / 多模态系统 / LiveKit 架构 / 工具编排 感兴趣, 欢迎先到 GitHub 给项目点个 ⭐ Star
x-cmd8 小时前
人工智能·ai·语言模型·自然语言处理·x-cmd
[x-cmd] x ollama - 本地大语言模型运行工具想要在本地运行大语言模型?Ollama 让你轻松实现!x ollama 封装了 Ollama,提供便捷的本地 AI 体验。
狮子座明仔9 小时前
人工智能·深度学习·语言模型·自然语言处理
MemFly:当智能体的记忆学会了“断舍离“——信息瓶颈驱动的即时记忆优化📖 论文标题:MemFly: On-the-Fly Memory Optimization via Information Bottleneck
Loo国昌9 小时前
人工智能·算法·语言模型·自然语言处理·金融·prompt
【AI应用开发实战】00_StockPilotX技术博客专栏:从零构建生产级AI金融分析系统欢迎来到StockPilotX技术博客专栏!这是一个系统性的AI应用开发实战教程,通过35篇深度技术文章,带你从零构建一个生产级的AI驱动金融分析系统。
大模型任我行9 小时前
人工智能·语言模型·自然语言处理·论文笔记
字节:LLM自演化规则强化思维链📖标题:Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics 🌐来源:arXiv, 2602.10885v1
sanshanjianke10 小时前
人工智能·语言模型·ai写作
AI辅助网文创作理论研究笔记(一):叙事模型的构建本文档记录了笔者在探索“AI辅助网络小说创作”过程中的阶段性思考。针对当前大模型在长文本生成中存在的叙事失控、一致性差及需求偏差等问题,笔者分析了现有技术应用与理论研究的短板,并创新性地引入软件工程中的“瀑布模型”与“多智能体”思路,构建了一套“四层构件模型”。同时,提出“双数据库”向“三数据库”演进的知识库架构,旨在解决网文创作中“效果学”与叙事学“结构学”的映射难题,为AI可控叙事提供工程化解决方案。
狮子座明仔10 小时前
大数据·人工智能·语言模型
DeepImageSearch:当图像检索需要“侦探式推理“,现有AI还差多远?你翻开手机相册,想找去年秋天和朋友在那家屋顶有红色风车的餐厅吃饭时拍的照片。你记得那天下午阳光很好,桌上有一瓶意大利红酒,朋友穿了件条纹衬衫。但你不记得确切日期,也不记得餐厅的名字。
狮子座明仔11 小时前
人工智能·机器学习·语言模型·自然语言处理
当RAG的“压缩包“爆了:如何检测Token溢出?论文标题:Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation 作者:Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko 机构:Skoltech, Sber AI Lab, AIRI 会议:EACL 2026 Student Research Workshop
狮子座明仔12 小时前
人工智能·语言模型·自然语言处理·金融
给大模型装一台“事实核查显微镜“:RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉大模型明明读了研报,还是会把上季度的数据安到本季度头上。金融场景容不得半点含糊——这篇论文把模型回答像查账一样"逐笔核对",用强化学习训练出一个不敢乱编数字的金融 RAG 系统。
大模型任我行1 天前
人工智能·语言模型·自然语言处理·论文笔记
英伟达:物理感知的多模态评判模型📖标题:PhyCritic: Multimodal Critic Models for Physical AI 🌐来源:arXiv, 2602.11124v1
一只理智恩1 天前
人工智能·python·语言模型·golang
AI 实战应用:从“搜索式问答“到“理解式助教“本文基于编程教育为例的项目展开讨论,详细介绍 AI 大模型在编程教育场景中的落地实践——如何用一套 Go 后端代码,让 AI 不只是"聊天机器人",而是真正懂你的编程助教。
大模型任我行1 天前
人工智能·语言模型·自然语言处理·论文笔记
北大:LLM数学证明形式化验证📖标题:FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight 🌐来源:arXiv, 2602.11136v2
狮子座明仔1 天前
人工智能·线性代数·语言模型·矩阵
Agent World Model:给智能体造一个“矩阵世界“——无限合成环境驱动的强化学习一句话总结:AWM构建了一套自动化管道,生成了1000个代码驱动的合成环境,让智能体在这些"平行世界"里训练后,能够泛化到真实的分布外场景。
艾醒(AiXing-w)1 天前
人工智能·python·语言模型
技术速递——通义千问 3.5 深度横评:纸面超越 GPT‑5.2,实测差距在哪?通义千问Qwen3.5全面技术测试报告封面2026年2月16日,阿里通义千问开源Qwen3.5-Plus(397B总参/17B激活),以稀疏MoE、混合注意力、原生多模态三大架构创新,宣称性能超越GPT-5.2、Claude 4.5等闭源顶流,部署成本大幅降低。本报告基于官方披露数据+第三方实测+自研场景验证,逐项对比、还原真实能力边界,为开发者与企业提供可落地的选型参考。
人工智能研究所1 天前
人工智能·深度学习·学习·机器学习·语言模型·自然语言处理
从 0 开始学习人工智能——什么是推理模型?从 OpenAI 的 o1 到大火的 DeepSeek-R1,大家都在谈论一个新词——“推理模型” (Reasoning Models)。