拒绝采样微调 - 拒绝采样微调技术,学习,经验文章

山顶夕景

1 年前

【LLM】为何DeepSeek 弃用MST却采用Rejection采样在提升大语言模型（LLM）推理能力时，拒绝采样（Rejection Sampling）和马尔可夫搜索树（Markov Search Tree）是两个超强的技术。