从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

https://mp.weixin.qq.com/s/IKzCkR7hzfctcK0c0DbBCA

TinyZero是首个DeepSeek R1-Zero的干净、简洁、易于获取的全开源复现,目前已11.6k Star。同时,它只需 30 美元就能模拟花费600万美元的DeepSeek R1-Zero 的推理。

TinyZero 以字节的RLHF训练框架veRL为基础进行构建,采用 DeepSeek R1-Zero 算法,通过强化学习在没有监督微调的情况下实现了 3B 参数的大语言模型的自我思维验证和搜索能力。

复制代码
https://github.com/Jiayi-Pan/TinyZero

4月22日上午9点 ,青稞Talk 第46期,UC Berkeley 博士生、TinyZero项目作者潘家怡和APR合作者李岫宇,将直播分享《从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化》。

APR(Adaptive Parallel Reasoning)是潘家怡博士和李岫宇博士,在Long CoT模型并行化加速方面提出自适应并行推理框架。

APR 通过多线程控制原语(spawn() 和 join())动态协调串行与并行推理流程,并基于端到端强化学习联合优化主从线程推理路径,实现无预设结构的计算资源自主调度。

在 Countdown 推理任务中,APR 展现出显著优势:4k 上下文窗口内成功率提升 23.4%(83.4% vs. 60.0%),20k 总 token 计算量时成功率提高 13.5%(80.1% vs. 66.6%),5 秒延迟条件下准确率提升 17.9%。

该框架为语言模型通过自适应分配并行计算资源优化推理效能提供了系统性解决方案。

分享嘉宾

李岫宇,UC Berkeley 博士生,导师为 Kurt Keutzer 教授,此前本科毕业于康奈尔大学。现主要研究方向为大语言模型 reasoning,后训练和高效推理。个人主页:xiuyuli.com

潘家怡,UC Berkeley 博士生,导师为 Alane Suhr教授,此前本科毕业于上海交通大学和密西根大学。现主要研究方向为大语言模型后训练方向,通过强化学习等方式提高模型在Agent和Reasoning上的能力。个人主页:jiayipan.com

主题提纲

从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

1、TinyZero: 低成本复现 DeepSeek R1 Zero Aha moment

2、大语言模型传统 CoT 推理中的挑战

3、APR: 自适应并行推理框架介绍

4、端到端强化学习驱动优化

直播时间

4月22日上午9:00 - 10:00

相关推荐
阿里云大数据AI技术2 分钟前
OmniThoughtV:面向多模态深度思考的高质量数据蒸馏
人工智能
jkyy20146 分钟前
AI健康医疗开放平台:企业健康业务的“新基建”
大数据·人工智能·科技·健康医疗
hy156878612 分钟前
coze编程-工作流-起起起---废(一句话生成工作流)
人工智能·coze·自动编程
brave and determined15 分钟前
CANN训练营 学习(day8)昇腾大模型推理调优实战指南
人工智能·算法·机器学习·ai实战·昇腾ai·ai推理·实战记录
Fuly102417 分钟前
MCP协议的简介和简单实现
人工智能·langchain
焦耳加热29 分钟前
湖南大学/香港城市大学《ACS Catalysis》突破:微波热冲击构筑异质结,尿素电氧化性能跃升
人工智能·科技·能源·制造·材料工程
这张生成的图像能检测吗38 分钟前
(论文速读)基于迁移学习的大型复杂结构冲击监测
人工智能·数学建模·迁移学习·故障诊断·结构健康监测·传感器应用·加权质心算法
源于花海43 分钟前
迁移学习的第一类方法:数据分布自适应(1)——边缘分布自适应
人工智能·机器学习·迁移学习·数据分布自适应
小北方城市网44 分钟前
鸿蒙6.0:生态质变与全场景智慧体验的全面跃升
人工智能·ai·鸿蒙6.0
呆萌很1 小时前
Canny 边缘检测
人工智能