技术栈
大模型架构
Token炼金师
2 小时前
人工智能
·
深度学习
·
大模型架构
·
kv cache
·
scaling laws
幂律的预言:Kaplan 与 Chinchilla 的算力账本 —— Scaling Laws 与最优配比
Scaling Laws 揭示大模型损失随参数、数据、算力的幂律关系,是预训练资源规划的基石。本文从 Kaplan 与 Chinchilla 两大定律的数学形式、争议根源、最优配比、涌现现象、μP 跨尺度迁移五个切口,给出源码级拟合实现与企业级算力规划决策框架。
七牛云行业应用
7 个月前
人工智能
·
强化学习
·
大模型架构
·
deepseek
告别RLHF?DeepSeek过程奖励(PRM)架构解析与推理数据流设计
摘要: DeepSeek 刚刚发布的 Math-V2 模型凭借 7B 参数量在 IMO 级数学测试中击败了 GPT-4。这标志着大模型训练正在从“结果导向(ORM)”向“过程导向(PRM)”跃迁。本文深度解析 DeepSeek 的“元验证”架构,并探讨在这一新范式下,面对指数级增长的推理过程数据,企业应如何构建适配的高吞吐存储基础设施。
TGITCIC
9 个月前
人工智能
·
ai产品经理
·
ai产品
·
ai落地
·
大模型架构
·
ai架构
·
大模型产品
AI Agent竞争进入下半场:模型只是入场券,系统架构决定胜负
当前,AI Agent的发展正处在从概念验证到规模化落地的关键转折点。过去半年间,我们看到无数企业跃跃欲试,却在实践中频频碰壁。一个令人深思的现象是:那些拥有顶尖模型资源的企业,未必能打造出真正好用的智能体系统;而一些巧妙设计架构的团队,即使用中等规模的模型也能创造出令人惊艳的智能体应用。
知世不是芝士
2 年前
深度学习
·
langchain
·
自动化
·
大语言模型
·
agent
·
多模态大模型
·
大模型架构
自主智能体的未来:LangChain Agents如何实现复杂任务自动化
在AI领域,智能体(Agents)指的是能够自主感知环境并采取行动以实现特定目标的系统。ReAct(Reasoning and Acting)范式是理解智能体的基础,它强调智能体在执行任务时的推理和行动能力。智能体通过持续地感知环境、推理和采取行动,不断优化其行为,以实现预定目标。
我爱学Python!
2 年前
人工智能
·
自然语言处理
·
大语言模型
·
大模型开发
·
大模型应用
·
大模型落地
·
大模型架构
大模型落地应用架构的一种模式
经过几个月的实践和探索,看过也经历过一些成型的项目了,如果是奔着落地去的,我们的目光不能只盯着大模型本身,而应该放眼甚至是需要投入精力去建设很多我们别的工作上。
我是有底线的