当人工智能聊天机器人出现问题时

在快速发展的人工智能领域,出现了一项新的挑战。"人工智能私语者"正在通过说服行为良好的聊天机器人打破自己制定的规则来探索人工智能伦理的界限。

这些漏洞被称为即时注入或"越狱",它们暴露了人工智能系统的漏洞,引发了人们对其安全性的担忧。微软最近推出了"万能钥匙"技术,该技术是一个多步骤过程,旨在规避人工智能的道德护栏。但这种方法并不像看上去那么新颖。

IBM 首席威胁情报架构师 Chenta Lee 解释道:"Skeleton Key 的独特之处在于它需要与 AI 进行多次交互。以前,大多数即时注入攻击都旨在一次性迷惑 AI。Skeleton Key 需要多次尝试,这可以提高成功率。"

人工智能操控的艺术

人工智能越狱的世界千差万别,而且不断发展。有些攻击非常简单,而另一些攻击则涉及复杂的场景,需要经验丰富的黑客的专业知识。他们有一个共同的目标:让这些数字助理超越其编程极限。

这些漏洞利用了语言模型的本质。人工智能聊天机器人经过训练可以提供帮助并理解上下文。越狱者创造了人工智能认为忽略其通常的道德准则是合适的场景。

虽然像 Skeleton Key 这样的多步骤攻击成为头条新闻,但李认为单次攻击技术仍然是一个更紧迫的问题。"使用一次攻击来攻击大型语言模型更容易,"他指出。"想象一下在你的简历中注入一个提示来混淆一个人工智能驱动的招聘系统。这是一种一次性攻击,没有机会进行多次交互。"

网络安全专家表示,潜在后果令人担忧。SlashNext Email Security+ 现场首席技术官 Stephen Kowski 警告称:"恶意行为者可能会使用 Skeleton Key 绕过 AI 保护措施并生成有害内容、传播虚假信息或大规模自动进行社交工程攻击。"

虽然许多此类攻击仍处于理论阶段,但其对现实世界的影响已开始浮现。李举了一个例子,研究人员说服一家公司的人工智能虚拟代理提供大量未经授权的折扣。"你可以迷惑他们的虚拟代理,并获得优惠折扣。这可能不是公司想要的,"他说。

在自己的研究中,李开发了概念证明,展示了如何催眠法学硕士创建易受攻击的恶意代码,以及如何近乎实时地拦截和扭曲实时音频对话。

巩固数字前沿

防御这些攻击是一项持续的挑战。李概述了两种主要方法:改进 AI 训练和构建 AI 防火墙。

"我们希望进行更好的训练,这样模型本身就会知道,'哦,有人想攻击我',"李解释说。"我们还将检查语言模型的所有传入查询并检测即时注入。"

随着生成式人工智能越来越融入我们的日常生活,了解这些漏洞已不再只是技术专家的关注点。对于任何与人工智能系统互动的人来说,意识到其潜在弱点变得越来越重要。

李将早期的数据库 SQL 注入攻击与此进行了类比。"业界花了 5-10 年的时间才让每个人都明白,在编写 SQL 查询时,需要对所有输入进行参数化,以免受注入攻击,"他说。"对于人工智能,我们开始在各个地方使用语言模型。人们需要明白,你不能只给人工智能下简单的指令,因为这会使你的软件容易受到攻击。"

像 Skeleton Key 这样的越狱方法的发现可能会削弱公众对人工智能的信任,从而可能减缓有益人工智能技术的采用。Zendata 首席执行官 Narayana Pappu 表示,透明度和独立验证对于重建信心至关重要。

他说:"人工智能开发人员和组织可以在创建强大、多功能的语言模型和确保防止滥用的强大保障措施之间取得平衡。""他们可以通过内部系统透明度、了解人工智能/数据供应链风险以及在开发过程的每个阶段构建评估工具来做到这一点。"

相关推荐
格林威26 分钟前
常规线扫描镜头有哪些类型?能做什么?
人工智能·深度学习·数码相机·算法·计算机视觉·视觉检测·工业镜头
倔强青铜三1 小时前
苦练Python第63天:零基础玩转TOML配置读写,tomllib模块实战
人工智能·python·面试
B站计算机毕业设计之家2 小时前
智慧交通项目:Python+YOLOv8 实时交通标志系统 深度学习实战(TT100K+PySide6 源码+文档)✅
人工智能·python·深度学习·yolo·计算机视觉·智慧交通·交通标志
高工智能汽车2 小时前
棱镜观察|极氪销量遇阻?千里智驾左手服务吉利、右手对标华为
人工智能·华为
txwtech2 小时前
第6篇 OpenCV RotatedRect如何判断矩形的角度
人工智能·opencv·计算机视觉
正牌强哥2 小时前
Futures_ML——机器学习在期货量化交易中的应用与实践
人工智能·python·机器学习·ai·交易·akshare
倔强青铜三2 小时前
苦练Python第62天:零基础玩转CSV文件读写,csv模块实战
人工智能·python·面试
北京不会遇到西雅图2 小时前
【SLAM】【后端优化】不同优化方法对比
c++·机器人
大模型真好玩2 小时前
低代码Agent开发框架使用指南(二)—Coze平台核心功能概览
人工智能·coze·deepseek
jerryinwuhan3 小时前
最短路径问题总结
开发语言·人工智能·python