paperresearch

猴子吃桃_Q10 天前
paperresearch
刚刚,DeepSeek又一重大突破,小身材大智慧玩出新高度原文:https://mp.weixin.qq.com/s/RWmTAk-SMadqi5BZEy9pqA
猴子吃桃_Q15 天前
paperresearch
Meta推出Agent Learning via Early Experience,推动语言代理自主学习新范式原文: https://mp.weixin.qq.com/s/fhNRtk0FhK6K9_LBLwbDSg
猴子吃桃_Q18 天前
paperresearch
Qwen2.5技术报告Qwen2.5系列模型经过预训练和后处理两个阶段的改进,在高质量预训练数据集的基础上,通过多阶段强化学习等技术进行后处理,提高了人类偏好、长文本生成、结构数据分析和指令遵循等方面的能力。该系列模型提供了多种配置,包括基于基础模型和指令微调的模型,参数量从0.5B到72B不等,并且还提供了量化版本的指令微调模型。此外,该系列模型在各种基准测试中表现出色,超越了许多开源和专有模型,并具有良好的成本效益。Qwen2.5模型还被用于训练专门化的模型,如数学、编码器和多模态模型等。
猴子吃桃_Q20 天前
paperresearch
颠覆传统RAG!Agentic RAG登场,AI代理如何“自我进化”解决复杂 query?原文: https://mp.weixin.qq.com/s/2NPKctr45W7pS0vFz3XHeg
猴子吃桃_Q21 天前
paperresearch
Qwen2.5-VL技术报告原文:https://mp.weixin.qq.com/s/IbfY50w_w27WO3ZzRSsyDg
猴子吃桃_Q1 个月前
paperresearch
不用手也能玩手机?多代理协作框架让 APP 自动执行任务原文:https://mp.weixin.qq.com/s/i-o68QcHK6KsUC8YrWuVjA
猴子吃桃_Q1 个月前
paperresearch
告别人工标注瓶颈!Reward-RAG:用 CriticGPT 打造更懂人类偏好的检索模型Reward-RAG: Enhancing RAG with Reward Driven Supervision
我是有底线的