技术栈
推理模型
镰刀韭菜
11 天前
大语言模型
·
强化学习
·
知识蒸馏
·
指令微调
·
deepseek
·
推理模型
·
旅程式学习
【LLM】一文理解推理大模型
2024年,大语言模型领域呈现出日益细化的趋势。除了预训练和微调之外,我们还见证了各种专业化应用的兴起,从检索增强生成到代码助手,不一而足。我预计这一趋势将在2025年进一步加速,对特定领域和应用场景的优化(即“专业化”)将得到更加重视。 图1:阶段1至阶段3是开发大型语言模型的通用步骤。阶段4则针对特定用例对大型语言模型进行专门化处理。
阿杰学AI
1 个月前
人工智能
·
ai
·
语言模型
·
aigc
·
cot
·
推理模型
·
reasoning model
AI核心知识63——大语言模型之Reasoning Model (简洁且通俗易懂版)
推理模型 (Reasoning Model) 是大语言模型进化出的一个全新物种。如果说 GPT-4、Claude 3 这种传统模型是“反应快、博学多才的百科全书” ;
喜欢吃豆
4 个月前
人工智能
·
python
·
语言模型
·
大模型
·
微调
·
强化学习
·
推理模型
微调高级推理大模型(COT)的综合指南:从理论到实践
大规模语言模型(LLM)的预训练阶段,通过在海量文本语料库(例如,Llama 3使用了超过15万亿个token的数据)上学习,赋予模型广泛的世界知识和语言能力。然而,预训练本身不足以让模型成为可靠、有用且安全的工具。后训练(Post-training) 是塑造模型行为、增强特定能力(尤其是复杂推理能力)并使其与人类价值观和偏好对齐的关键阶段。
微凉的衣柜
9 个月前
语言模型
·
推理模型
使用GRPO训练调度事件的语言模型!
参考:https://huggingface.co/blog/anakin87/qwen-scheduler-grpo
PLUS_WAVE
9 个月前
学习
·
语言模型
·
大模型
·
cot
·
vlm
·
推理模型
·
reasoning
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记
当前 VLMs 通过对齐视觉输入和语言输出训练,虽然整体表现好,但在需要细致视觉推理的任务上容易出错,比如无法正确识别图片中的细节内容。这是因为现有模型习惯直接给出结论,而缺乏中间推理步骤。
Nicolas893
1 年前
大模型
·
强化学习
·
千问
·
r1
·
推理模型
·
32b
【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验
3月6日凌晨,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QwQ-32B在数学、代码及通用能力上实现提升。在保持性能的同时,千问QwQ-32B还大幅降低部署使用成本,在消费级显卡上也能实现本地部署。
我是有底线的