技术栈
llada
山顶夕景
7 小时前
大模型
·
llm
·
diffusion
·
生成式
·
llada
【LLaDA】Large Language Diffusion Models
这篇论文提出了LLaDA(Large Language Diffusion with mAsking),一种从预训练和监督微调(SFT)范式下从头开始训练的扩散模型。
我是有底线的