【工具调用】工具调用后训练参数设计方案总结

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

MUA-RL: MULTI-TURN USER-INTERACTING AGENT REINFORCEMENT LEARNING FOR AGENTIC TOOL USE

DeepAgent: A General Reasoning Agent with Scalable Toolsets

TOOLACE: WINNING THE POINTS OF LLM FUNCTION CALLING

ToolRL: Reward is All Tool Learning Needs

TORA: A TOOL-INTEGRATED REASONING AGENT FOR MATHEMATICAL PROBLEM SOLVING

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

相关推荐
wuweijianlove3 小时前
算法性能的渐近与非渐近行为对比的技术4
算法
墨染天姬3 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
_dindong3 小时前
cf1091div2 C.Grid Covering(数论)
c++·算法
AI成长日志3 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114243 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠3 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光3 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
skywalker_113 小时前
力扣hot100-3(最长连续序列),4(移动零)
数据结构·算法·leetcode
6Hzlia3 小时前
【Hot 100 刷题计划】 LeetCode 17. 电话号码的字母组合 | C++ 回溯算法经典模板
c++·算法·leetcode
小超同学你好3 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型