llm

DigitalOcean7 小时前
llm·agent
DigitalOcean 推出大模型自动化评估功能,上线前精准避坑在选择投入生产的模型或推理路由器时,光看性能榜单(Leaderboard)远远不够。真正稳妥的做法是:在上线之前,用自己的数据、自己的提示词、自己的评估标准,在同一平台内同时对比质量、延迟和成本,验证任何模型或路由配置是否达标。
ch_09189 小时前
typescript·llm·agent
从0构建SDK第3节:实现 ReActAgent 的推理与行动循环上一节我们实现了 SimpleAgent。它已经能做三件重要的事:这一节继续往前走,实现一个更经典的 Agent 范式:ReActAgent。
得物技术13 小时前
llm·aigc·测试
AI UITester:AI Native 的 UI 自动化测试新范式|得物技术痛点一:用例迁移成本高昂测试用例平台积累了大量描述性用例,但不可直接执行。QA 需要逐条手动翻译:理解业务逻辑、编写元素定位、调试执行路径。一个中等规模的模块,转化成本可能需要数人天。
不好听61313 小时前
llm·agent
Harness Engineering:给千里马套上缰绳Prompt Engineering 教你怎么跟模型说话。Context Engineering 教你怎么给模型喂资料。而 Harness Engineering 回答的是一个更根本的问题:怎么管住一个比你聪明、但完全不靠谱的模型,让它稳定地干活?
小林ixn13 小时前
人工智能·llm
LLM如何预测下一个词?从Token到概率,一文看懂大模型推理内幕大模型就像一个超级预测机器,它的全部智慧就是猜下一个字——但问题是,它凭什么猜得这么准?你有没有想过,当你给 ChatGPT 发一句“中国的首都是”,它怎么就知道接“北京”而不是“上海”?明明它只是一个接收文本、输出文本的程序,内部到底发生了什么?
树獭非懒15 小时前
人工智能·llm·agent
从零构建ReAct智能体:让AI学会边想边做大语言模型已经能写诗、编程、做数学题,但它有一个根本性的短板:无法与外部世界交互。你问它"今天深圳天气怎么样",它只能诚恳地告诉你"我的知识截止到某某日期"——不是它不想回答,是它根本没有"看天气"这个动作能力。
Hyyy1 天前
llm
SSE和WebSocket 是什么,AI 场景下如何选择在讲解具体协议前,先明确两个基础认知,理解两类技术的诞生逻辑与适配边界:AI 场景的两类核心实时需求AI 产品的实时通信需求本质分为两类,对应完全不同的技术路线:
DigitalOcean1 天前
llm·agent
OpenCode AI编程实践:利用推理路由低成本开发游戏Claude Opus 4.8 这样的前沿模型能驱动从 Python 到 C++ 再到 GDScript 的智能编码,但在生产规模下,它们的按 token 计费成本会迅速膨胀。DigitalOcean 的推理路由器直面这个问题:它将常规工作路由到较小的开源模型,只有在任务确实需要时才升级到前沿模型。为了在一个真实的多文件代码库上衡量差异,我们完全通过 OpenCode 构建了一款完整的基于 Godot 4 的点球大战游戏游戏——PK Shootout。
带刺的坐椅2 天前
ai·llm·agent·claudecode·soloncode·codingplan
从 Claude Code 隐私争议,看 SolonCode 的设计选择2026 年 6 月 30 日,Reddit r/ClaudeAI 版面一则帖子引爆了开发者社区。发帖人声称,通过逆向工程发现 Claude Code 自 v2.1.91(4 月 2 日发布)起,存在隐蔽的用户环境检测行为。
MomentYY2 天前
前端·llm·ai编程
Temperature:AI 的“脑洞旋钮”《AI 知识卡片》第 02 期 · 一个参数,决定 AI 是严谨还是放飞同一个问题,你问 AI 两遍:有时两次答得几乎一样,有时却差挺多?这个“时而稳定、时而多变”,其实是可以调的。控制它的旋钮,就叫 temperature(温度)。
Darling噜啦啦2 天前
llm·ai编程
上下文工程实战:从 Prompt 到 Harness 的三次 AI 工程化浪潮本文回顾 AI 工程化的三次浪潮演进——从 Prompt Engineering 的不确定性,到 Context Engineering 的精准补全,再到 Harness Engineering 的确定性交付。结合奶茶研发的实战代码,手把手教你用结构化上下文让 LLM 输出更靠谱。
Hyyy3 天前
前端·llm·ai编程
Function Calling / Tool Use的原理和实现模式在讲解具体技术前,先明确两个底层认知,理解工具调用能力的核心价值:Function Calling(常称函数调用,又称 Tool Use 工具使用)是现代大语言模型的关键能力,指模型能够识别用户需求中需要外部能力的场景,按照指定格式输出结构化的工具调用请求,由外部程序执行后,再基于返回结果生成最终回答。
智泊AI3 天前
llm
Loop Engineering 为什么会出现?一个 Loop 的组成部分有哪些?最近AI圈火了一个新概念,名叫Loop Engineering,也就是循环工程。今天就用大白话跟大家聊透它,让你彻底搞懂Loop Engineering到底是什么。
凌奕3 天前
llm·github·agent
别用文档约束你的 Agent:聊聊 Agent 开发流程的思想一句话总结:好的 Agent 开发流程,核心是"模型是智能,代码是手脚"。但大多数系统只做对了一半——它们把关键契约写成文档里的大写字母 MUST,求模型记得遵守。真正成熟的做法,是把这些 HARD RULE 变成做不出错的闸门。
Java之美4 天前
llm
vLLM 是怎么工作的?本文翻译并整理自 Amit Shekhar 的 How does vLLM work?。在谈 vLLM 之前,先要明白"服务(serving)一个 LLM"到底意味着什么。
JouYY4 天前
架构·llm·agent
聊一下多 Agent 编排架构的应用实践在我所做的公司业务中,想完成一个完整的项目,需要跨多个系统做创建资源,交互流转,比如:存在的问题:有了AI之后,我们尝试把流程工作转交给Agent完成,让他按照既定流程,进行资源创建,流转。然而,简单的任务可以通过这样实现,一旦任务比较复杂,步骤较多,就会有下面这些问题:
To_OC6 天前
人工智能·llm·agent
数据集划分不是随便切:手把手切分大众点评情感数据集昨天跑中文情感分类 baseline,一上来就栽在数据集上了。本来想着从魔搭拖个现成的大众点评数据集,加载完直接喂模型,结果 MsDataset.load 下来一看,整份数据全塞在 train 里,连个验证集测试集都没给分好。盯着控制台输出的单条样本愣了半分钟,得,自己动手切吧。
想要成为糕糕手6 天前
llm·agent
深入理解AI Agent工具调用:从原理到代码实现翻了不少文章,讲 AI Agent "能做什么"的多,讲"怎么做到的"少。 我第一次看 SDK 文档时有个疑问:LLM 没联网、没权限,它是怎么调用工具的? 跑完代码才发现——它根本没调。tool_calls 只是 LLM 输出的一段 JSON 格式文本,你的代码读到它之后,才真正去执行对应函数。整个过程 LLM 只做了一件事:写字。 这篇文章用一段不到 100 行的 Node.js 代码,把 Tool Calling 拆开给你看: