技术栈

agent安全

有点不太正常
6 小时前
论文阅读·大模型·agent安全
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读CoT通过生成逐步推理过程,大幅提升了 LLMs的准确性和可解释性,但推理链的拉长也暴露了新的攻击面 —— 中间推理步骤本身可能成为恶意操纵的载体。传统后门攻击多针对输入输出的 “表面层”(如注入触发词、篡改输出 tokens),而基于CoT的攻击需深入模型内部推理轨迹,现有方法缺乏对推理动态过程的直接干预,且易被检测。
我是有底线的