技术栈
agent安全
有点不太正常
6 小时前
论文阅读
·
大模型
·
agent安全
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读
CoT通过生成逐步推理过程,大幅提升了 LLMs的准确性和可解释性,但推理链的拉长也暴露了新的攻击面 —— 中间推理步骤本身可能成为恶意操纵的载体。传统后门攻击多针对输入输出的 “表面层”(如注入触发词、篡改输出 tokens),而基于CoT的攻击需深入模型内部推理轨迹,现有方法缺乏对推理动态过程的直接干预,且易被检测。
我是有底线的