paperresearch

刚刚，DeepSeek又一重大突破，小身材大智慧玩出新高度原文:https://mp.weixin.qq.com/s/RWmTAk-SMadqi5BZEy9pqA

Meta推出Agent Learning via Early Experience，推动语言代理自主学习新范式原文: https://mp.weixin.qq.com/s/fhNRtk0FhK6K9_LBLwbDSg

Qwen2.5技术报告Qwen2.5系列模型经过预训练和后处理两个阶段的改进，在高质量预训练数据集的基础上，通过多阶段强化学习等技术进行后处理，提高了人类偏好、长文本生成、结构数据分析和指令遵循等方面的能力。该系列模型提供了多种配置，包括基于基础模型和指令微调的模型，参数量从0.5B到72B不等，并且还提供了量化版本的指令微调模型。此外，该系列模型在各种基准测试中表现出色，超越了许多开源和专有模型，并具有良好的成本效益。Qwen2.5模型还被用于训练专门化的模型，如数学、编码器和多模态模型等。

颠覆传统RAG！Agentic RAG登场，AI代理如何“自我进化”解决复杂 query？原文: https://mp.weixin.qq.com/s/2NPKctr45W7pS0vFz3XHeg

Qwen2.5-VL技术报告原文：https://mp.weixin.qq.com/s/IbfY50w_w27WO3ZzRSsyDg

不用手也能玩手机？多代理协作框架让 APP 自动执行任务原文：https://mp.weixin.qq.com/s/i-o68QcHK6KsUC8YrWuVjA

告别人工标注瓶颈！Reward-RAG：用 CriticGPT 打造更懂人类偏好的检索模型Reward-RAG: Enhancing RAG with Reward Driven Supervision

我是有底线的