当人工智能聊天机器人出现问题时

在快速发展的人工智能领域,出现了一项新的挑战。"人工智能私语者"正在通过说服行为良好的聊天机器人打破自己制定的规则来探索人工智能伦理的界限。

这些漏洞被称为即时注入或"越狱",它们暴露了人工智能系统的漏洞,引发了人们对其安全性的担忧。微软最近推出了"万能钥匙"技术,该技术是一个多步骤过程,旨在规避人工智能的道德护栏。但这种方法并不像看上去那么新颖。

IBM 首席威胁情报架构师 Chenta Lee 解释道:"Skeleton Key 的独特之处在于它需要与 AI 进行多次交互。以前,大多数即时注入攻击都旨在一次性迷惑 AI。Skeleton Key 需要多次尝试,这可以提高成功率。"

人工智能操控的艺术

人工智能越狱的世界千差万别,而且不断发展。有些攻击非常简单,而另一些攻击则涉及复杂的场景,需要经验丰富的黑客的专业知识。他们有一个共同的目标:让这些数字助理超越其编程极限。

这些漏洞利用了语言模型的本质。人工智能聊天机器人经过训练可以提供帮助并理解上下文。越狱者创造了人工智能认为忽略其通常的道德准则是合适的场景。

虽然像 Skeleton Key 这样的多步骤攻击成为头条新闻,但李认为单次攻击技术仍然是一个更紧迫的问题。"使用一次攻击来攻击大型语言模型更容易,"他指出。"想象一下在你的简历中注入一个提示来混淆一个人工智能驱动的招聘系统。这是一种一次性攻击,没有机会进行多次交互。"

网络安全专家表示,潜在后果令人担忧。SlashNext Email Security+ 现场首席技术官 Stephen Kowski 警告称:"恶意行为者可能会使用 Skeleton Key 绕过 AI 保护措施并生成有害内容、传播虚假信息或大规模自动进行社交工程攻击。"

虽然许多此类攻击仍处于理论阶段,但其对现实世界的影响已开始浮现。李举了一个例子,研究人员说服一家公司的人工智能虚拟代理提供大量未经授权的折扣。"你可以迷惑他们的虚拟代理,并获得优惠折扣。这可能不是公司想要的,"他说。

在自己的研究中,李开发了概念证明,展示了如何催眠法学硕士创建易受攻击的恶意代码,以及如何近乎实时地拦截和扭曲实时音频对话。

巩固数字前沿

防御这些攻击是一项持续的挑战。李概述了两种主要方法:改进 AI 训练和构建 AI 防火墙。

"我们希望进行更好的训练,这样模型本身就会知道,'哦,有人想攻击我',"李解释说。"我们还将检查语言模型的所有传入查询并检测即时注入。"

随着生成式人工智能越来越融入我们的日常生活,了解这些漏洞已不再只是技术专家的关注点。对于任何与人工智能系统互动的人来说,意识到其潜在弱点变得越来越重要。

李将早期的数据库 SQL 注入攻击与此进行了类比。"业界花了 5-10 年的时间才让每个人都明白,在编写 SQL 查询时,需要对所有输入进行参数化,以免受注入攻击,"他说。"对于人工智能,我们开始在各个地方使用语言模型。人们需要明白,你不能只给人工智能下简单的指令,因为这会使你的软件容易受到攻击。"

像 Skeleton Key 这样的越狱方法的发现可能会削弱公众对人工智能的信任,从而可能减缓有益人工智能技术的采用。Zendata 首席执行官 Narayana Pappu 表示,透明度和独立验证对于重建信心至关重要。

他说:"人工智能开发人员和组织可以在创建强大、多功能的语言模型和确保防止滥用的强大保障措施之间取得平衡。""他们可以通过内部系统透明度、了解人工智能/数据供应链风险以及在开发过程的每个阶段构建评估工具来做到这一点。"

相关推荐
python算法(魔法师版)13 分钟前
深度学习深度解析:从基础到前沿
人工智能·深度学习
bohu8336 分钟前
亚博microros小车-原生ubuntu支持系列:16 机器人状态估计
ubuntu·机器人·imu·localization·microros·imu_tools
kakaZhui38 分钟前
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
人工智能·深度学习·chatgpt·aigc·llama
struggle20252 小时前
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BI
人工智能·深度学习·目标检测·语言模型·自然语言处理·数据挖掘·集成学习
佛州小李哥2 小时前
通过亚马逊云科技Bedrock打造自定义AI智能体Agent(上)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
云空3 小时前
《DeepSeek 网页/API 性能异常(DeepSeek Web/API Degraded Performance):网络安全日志》
运维·人工智能·web安全·网络安全·开源·网络攻击模型·安全威胁分析
AIGC大时代3 小时前
对比DeepSeek、ChatGPT和Kimi的学术写作关键词提取能力
论文阅读·人工智能·chatgpt·数据分析·prompt
山晨啊84 小时前
2025年美赛B题-结合Logistic阻滞增长模型和SIR传染病模型研究旅游可持续性-成品论文
人工智能·机器学习
一水鉴天4 小时前
为AI聊天工具添加一个知识系统 之77 详细设计之18 正则表达式 之5
人工智能·正则表达式
davenian5 小时前
DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力
人工智能·深度学习·语言模型·deepseek