r1

Nicolas8939 小时前
大模型·强化学习·深度搜索·r1·深度研究·search-r1·深度检索增强
【大模型理论篇】Search-R1: 通过强化学习训练LLM推理与利⽤搜索引擎最近基于强化学习框架来实现大模型在推理和检索能力增强的项目很多,也是Deep Research技术持续演进的缩影。之前我们讨论过《R1-Searcher:通过强化学习激励llm的搜索能⼒》,今天我们分析下Search-R1【1】。
太空眼睛1 个月前
知识库·fastgpt·智能助手·智能体·deepseek·r1·满血版
【FastGPT】利用知识库创建AI智能助手关于FastGPT的部署,官方提供了docker-compose方式的部署文档,如果使用的是podman和podman-compose的同学,可以参考这篇文章【FastGPT】Linux系统使用podman-compose方式部署指南
Nicolas8931 个月前
大模型·强化学习·千问·r1·推理模型·32b
【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验3月6日凌晨,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现提升。在保持性能的同时,千问QwQ-32B还大幅降低部署使用成本,在消费级显卡上也能实现本地部署。
山顶夕景2 个月前
llm·强化学习·deepseek·r1
【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新(1)未来的工作需亟待解决:(2)应用在业务落地时,需要考虑:(3)RL 基本设置:Reward 函数定义、Penalty 函数定义 (Optional)、优化方式、训练平台 注:复现工作均在 TIONE 平台上使用 1 台 ~ 4 台 GPUs 进行。上述几个开源复现工作中,只有 OpenRLHF 支持多机多卡训练。其余的仅支持单机多卡训练,且往往存在 GPU 数目的限制。在训练 TinyZero 和 LogitRL 时,就遇到了扩展 GPUs 后训练卡在初始化的问题。大部分项目使用 4 卡、8 卡、3
一颗小树x2 个月前
windows·部署·deepseek·r1
DeepSeek-R1 本地电脑部署 Windows系统 【轻松简易】本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。这里借助Ollama工具,在Windows系统中进行大模型部署~