技术栈
o1模型
BQW_
24 天前
llm
·
强化学习
·
rlhf
·
偏好对齐
·
o1模型
【偏好对齐】PRM应该奖励单个步骤的正确性吗?
论文地址:《Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning》
聚梦小课堂
4 个月前
gpt
·
chatgpt
·
openai
·
openai o1
·
o1模型
OpenAI GPT o1技术报告阅读(5)-安全性对齐以及思维链等的综合评估与思考
原文链接:https://openai.com/index/learning-to-reason-with-llms/