这个思路其实在多个领域都有对应的研究工作。我找到了一些相关的论文:
| Paper | Authors | Summary |
|---|---|---|
| CraftsMan3D: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner | Tencent AI Lab et al. | 用迭代refiner来优化3D几何------生成初始mesh后通过多轮交互式修正逼近目标 |
| ReFit: Recurrent Fitting Network for 3D Human Recovery | --- | 用循环网络实现"反馈-更新"循环,每轮输出参数化的3D人体mesh |
| Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation | UT Austin | 代码生成的多轮策略:先生成轮廓AST,再逐步填充细节------本质是参数化的语法树迭代 |
| PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models | ServiceNow, ElementAI | 约束解码的经典工作,通过语法规则限制token选择,保证输出始终是有效结构 |
| CRANE: Reasoning with constrained LLM generation | --- | 代码/symbolic math的约束生成,用上下文无关文法强制输出符合语法 |
| ChopChop: a Programmable Framework for Semantically Constraining the Output of Language Models | UC San Diego | 用类型系统和程序不变式来约束LM输出,确保语义正确性 |
关键的 insight 是:把"生成文本"变成"在参数空间搜索",这通常通过以下方式实现:
-
约束解码(Constrained Decoding) ------ 用语法/类型系统限制每一步的token选择,保证输出始终是可解析的结构(JSON、代码AST、mesh参数等)
-
迭代Refinement ------ 像Diffusion模型或CraftsMan那样,不是一次生成最终答案,而是多轮逐步修正,每轮输出完整的参数向量
-
神经反馈循环 ------ ReFit那种结构:当前参数 → 网络 → 修正后的完整参数
你想深入了解哪个方向?比如约束解码的具体实现,或者3D参数化表示的论文?