语言模型

如此这般英俊8 小时前
数据结构·人工智能·语言模型·自然语言处理
手撕Claude Code—第一章 agent-loop这一章ShareAI讲述了一个harness运行的最小单元框架。 我们的任务是:捋清一个agent在执行一次任务时的清晰逻辑。 完整代码见:https://github.com/shareAI-lab/learn-claude-code/blob/main/s01_agent_loop/code.py
纤纡.12 小时前
人工智能·阿里云·语言模型·云计算
阿里云 DSW 实战:从零完成 Qwen3-4B 大模型 LoRA 微调全流程很多人说大模型微调门槛高,尤其是在阿里云 DSW 这种云环境里,光是环境配置和网络问题就能劝退新手。我这次亲身体验了一遍,从模型下载、环境配置、训练启动到权重合并,踩了几乎所有新手会遇到的坑,也总结了一套能一次跑通的完整流程。
bupt_0114 小时前
人工智能·语言模型
claudecode深入理解及源码解析(一):从 main.tsx 入口到对话闭环本文基于 2026 年 3 月通过 npm sourcemap 泄露的 Claude Code 完整源码进行分析,旨在帮助开发者理解这一标杆级 AI 编程助手的内部架构。
weixin_4462608515 小时前
人工智能·语言模型·概率论
局部相合,全局不一致:多组件大型语言模型智能体中组合不一致性的界定论文编号:arXiv:2605.30335v1 主题:多组件 LLM 智能体(Multi-Component Agents)中的概率相干性、组合不一致性与几何修复。 核心发现:即使每个组件内部局部相干(Locally Coherent),组合后的系统也可能违反基本概率公理(如概率和 >1),导致“荷兰赌”(Dutch-book)暴露。
z小猫不吃鱼16 小时前
人工智能·语言模型·自然语言处理·gpt-3
10 GPT-3 论文精读:Few-shot Learning 为什么会出现?在上一篇文章中,我们精读了 GPT-2。GPT-2 的核心思想是:也就是说,当一个语言模型在足够大、足够多样的网页文本上进行训练后,它可能会从自然语言中自动学到许多任务模式,并在没有下游任务微调的情况下完成部分 NLP 任务。GPT-2 已经开始展示 zero-shot 能力,但这种能力还比较初级。它更多是通过文本续写的方式,在某些任务上表现出“像是在做任务”的能力。
DisonTangor16 小时前
人工智能·语言模型·数据挖掘·开源·aigc
跃阶星辰开源Step 3.7 Flash:原生多模态,最高生成速度400 Tokens/sStep 3.7 Flash 是一个拥有 198B 参数的稀疏专家混合模型,它结合了一个 196B 参数的语言主干网络和一个 1.8B 参数的视觉编码器,以实现原生图像理解。该模型专为高频生产工作负载而设计,每个令牌激活约 110 亿个参数,吞吐量高达每秒 400 个令牌。Step 3.7 Flash 支持 256k 上下文窗口,并提供三种可选的推理级别,让开发者可以轻松在速度、成本和认知深度之间取得平衡。
wabs66617 小时前
人工智能·语言模型·自然语言处理
本科毕业设计项目——基于RAG与大语言模型的408问答系统设计与实现【用户端的提问逻辑是怎么实现的?】目录:一、总体步骤二、详细步骤(四步)一、总体步骤用户提问流程图如下图所示:涉及的部分:1、系统的用户前端页面
weixin_4462608518 小时前
人工智能·语言模型·软件工程
SpecBench:软件工程中大型语言模型智能体的规范级推理评估论文编号:arXiv:2605.30314v1 主题:软件工程中规范(Specification)级推理的评估基准。 核心发现:现有的 SWE-Bench 等基准主要关注代码生成层面的推理,而现实中的软件工程要求智能体具备设计、审查规范(如 RFC)的能力。本文提出的 SpecBench 专门评估智能体生成完整、无歧义、一致且正确系统规范的能力。
YueJoy.AI19 小时前
人工智能·ai·语言模型
AI应用的数据分析:从采集到决策我们产品上线后,有很多用户数据,但不知道怎么用。后来我意识到:数据不是目的,洞察才是。今天,分享我们是如何建立数据分析体系的。
weixin_4684668518 小时前
人工智能·python·算法·语言模型·自然语言处理·transformer·注意力机制
大语言模型原理新手入门指南很多开发者在初次接触大语言模型时,往往被其流畅的对话能力所震撼,却对背后的运行逻辑感到神秘莫测。我们习惯了传统软件中确定的输入输出规则,而面对一个能写代码、能创作、甚至能进行逻辑推理的“黑盒”,常常不知从何下手去理解或优化它。其实,剥开那些复杂的数学公式和庞大的参数量,大模型的核心工作原理并没有那么玄乎,它本质上是一个基于概率的文本预测机器,只是通过海量的数据训练和精妙的架构设计,将这种预测能力提升到了智能的高度。
星辰AI19 小时前
人工智能·ai·语言模型
向量检索技术与相似度算法:深度解析 ANN 索引向量检索是 RAG系统和语义搜索的核心技术。当我们需要从海量向量中找到与查询最相似的结果时,精确的 KNN(K-Nearest Neighbors)搜索在数据量大时会变得极其缓慢。近似最近邻(ANN,Approximate Nearest Neighbors)算法通过允许一定的精度损失,换取了大幅的性能提升。
Protein Designer1 天前
语言模型
Deepseek-V4-Flash 快速部署与调用指南在本地部署大语言模型时,很多开发者最头疼的往往不是模型本身的复杂度,而是环境配置的“劝退”环节。从依赖冲突到显存溢出,再到推理速度不如预期,每一个环节都可能让项目停滞不前。尤其是当我们需要将模型集成到现有业务流中,或者仅仅想在本地快速验证一个想法时,繁琐的部署流程和不透明的报错信息常常让人无从下手。
AI 小老六1 天前
数据库·人工智能·ai·语言模型·架构·系统架构
Claude Code 如何压缩上下文:Microcompact、Prompt Cache 与 cache_edits 工程拆解拆解 Claude Code 如何用 Microcompact 和 cache_edits,在清理上下文时保住 Prompt Cache 折扣。 原文链接:AI 小老六
lqqjuly1 天前
人工智能·语言模型
注意力机制完全详解注意力机制(Attention Mechanism)是一种让模型能够动态聚焦于输入序列中最相关部分的技术。它的核心思想是:在处理一个序列时,模型不应该平等对待所有位置的信息,而应该根据当前任务的需要,选择性地关注最相关的信息。
风落无尘1 天前
人工智能·语言模型·aigc
第十章《多模态与具身》 完整学习资料本资料为《智能重生:从垃圾堆到AI工程师》第十章配套学习内容。 阅读小说原文:第十章《多模态与具身》 专栏总目录:《智能重生》AI工程师成长小说专栏
lqqjuly2 天前
人工智能·语言模型
词嵌入与语言模型详解词嵌入(Word Embedding)是自然语言处理中最基础也是最重要的技术之一。它的核心目标是将离散的词语符号映射到连续的低维向量空间中,使得语义相近的词在向量空间中的距离也相近。这种映射不是随意的,而是通过大量文本数据学习得到的,能够捕捉词语之间的语义、语法和上下文关系。
城管不管2 天前
android·java·数据库·语言模型·llm·prompt
什么是Prompt?上一章你已经搞清楚了大模型的底层逻辑:它是一个超级助理,你通过 messages 列表把内容传给它,它根据你给的上下文预测并生成回答。
YueJoy.AI2 天前
人工智能·ai·语言模型
AI应用的容器化部署:从Docker到Kubernetes我们的产品从单服务器部署到多服务器部署时,遇到了很多问题:环境不一致、部署复杂、扩容困难。后来我们引入了容器化和 Kubernetes,问题迎刃而解。今天,分享我们的实践经验。
学习中.........2 天前
人工智能·机器学习·语言模型
大语言模型的采样参数与输出控制机制阅读目标: 掌握从概率分布到最终文本生成的机制,理解采样参数的底层逻辑,以及参数调优与任务建模的优先级关系。
wabs6662 天前
人工智能·语言模型·自然语言处理
本科毕业设计项目——基于RAG与大语言模型的408问答系统设计与实现【检索与生成功能的第三步答案生成是怎么实现的?】目录一、Cursor版本的答案生成流程图二、自己版本的答案生成流程图