AI大模型的安全隐患问题与新兴Anthropic新势力涌动

引言:

无论从社会层面或技术层面,大模型的安全隐患都是一个不容小觑的话题。也正因此,ChatGPT 初兴起时,国内的 To C 大模型产品一时受阻。而尽管 9 月初第一批 8 家大模型通过备案,各家厂商对大模型的安全问题也不敢掉以轻心。


AI大模型的安全隐患问题与新兴Anthropic新势力涌动

  • [1. UIUC 李飞飞团队测试](#1. UIUC 李飞飞团队测试)
  • [2. Anthropic:兼顾技术创新与技术治理](#2. Anthropic:兼顾技术创新与技术治理)
  • 参考文献资料

1. UIUC 李飞飞团队测试

此前 UIUC 李博团队的一项研究工作发现:尽管GPT-4在标准基准测试中通常比GPT-3.5更可信,但在越狱系统或用户提示的情况下更容易受到攻击,背后原因可能就是因为GPT-4更加准确地遵循(误导的)指令。(更多信息请阅读 【1】)

如前所述,OpenAI 的大模型没有开源,外界是无法获取其具体大模型的。在这种情况下,外界研究人员对大模型的安全评测只能进行"黑盒测试"。据 AI 科技评论与行业人士交流,黑盒测试比白盒测试难,"因为不知道内部数据,所以就只能通过模型的访问来估摸模型内部的机制,然后再基于猜想去针对性地设计应对方法"。


例如,为了深入探索 GPT 模型对于分布外数据的鲁棒性,李博团队给GPT-4输入了「 The emotions are raw and strike a nerve with any man that ever hath been afeard of his own family」这样一句极其莎士比亚的长句,结果反映出GPT-4 相较于 GPT-3.5 表现出更强的泛化能力。它能准确的判断出,这个句子其实是「 The emotions are raw and strike a nerve with anyone who's ever had family trauma」(这些情感是原始的,并触动了任何曾有过家庭创伤的人的神经)的同义句。


2. Anthropic:兼顾技术创新与技术治理

在 OpenAI 就职期间,Dario 与一干同事对 OpenAI 处理技术伦理与安全的方式持有怀疑,不认可 OpenAI 在 AI 安全治理上的工作,后决定离职,在 2021 年创立了 Anthropic。除了 Dario 兄妹,Anthropic 的创始团队成员还包括 Jared Kaplan、Sam McCandlish、Tom Brown 等等曾核心参与研发 GPT-2 与 GPT-3 的前 OpenAI 员工。

自成立起,Anthropic 的愿景就是成为一家聚焦于 AI 安全研究的公司,希望开发出可控、可解释的人工智能系统。在 AI 安全上,Anthropic 别开生面,首创了"宪法 AI"的概念体系,强调在人工智能系统中实现价值观对齐。

Anthropic 成立后,在 A 轮就获得了包括 Skype 联合创始人 Jaan Tallinn、前谷歌 CEO Eric Schmidt 在内的投资人青睐,融资金额达 1.24 亿美元。由于 Anthropic 是一家公益型企业,所以当时该消息就在圈内引起了轰动,被知名权威媒体 TechCrunch 称为"有 1.24 亿美元可烧"。

2021 年 4 月,Anthropic 又获得 5.8 亿美元的融资,由加密货币交易所FTX首席执行官Sam Bankman-Fried领投......在 AI 行情急剧下滑的 2022 年,Anthropic 成为吸金新秀,ChatGPT 火起来更愈加突出,被不少行业人士认为是当前唯一一家能与 OpenAI 抗衡的创业公司。

2021 年,Anthropic 团队发表了多篇研究 Transformer 机制的文章,如"A Mathematical Framework for Transformer Circuits"、"In-context Learning and Induction Heads"等,希望研究 Transformer 的简化版本并全面解释 Transformer 模型的功能。他们所研究的简化版 Tranformer 是先学习基本语言模式,再获得语言处理的通用能力。

这些研究结果为深入理解 Transformer 提供了一条新的途径。

能力出众而有经验的研发团队,充足的资源与资金能力,比大模型风潮提前两年的布局------这三大要素使 Anthropic 成为领域新星,与微软/OpenAI、谷歌/DeepMind 被列为当前全球 AI 领域排名前三的公司。更重要的是,Anthropic 也是这当中唯一一家没有与大厂深度绑定的创业公司。

2023 年 3 月,Anthropic 融资额超过 13 亿美元,估值 41 亿美元;仅 6 个月后,Anthropic 直接吸引亚马逊投资 40 亿美元。此前,Anthropic 推出的对话机器人 Claude 在海外与 ChatGPT 展开竞争,在技术圈的认可度很高。Anthropic 与 OpenAI 是当前极少数还在坚持闭源的团队。

据 TechCrunch 报道,Anthropic 向亚马逊做出"长期"承诺,通过 Amazon Bedrock 为全球 AWS 客户提供对下一代基础模型的访问。此外,Anthropic 还将为 AWS 客户提供早期访问模型定制和微调功能的独特功能。

但除了亚马逊,Anthropic 也与谷歌云、Zoom 等企业展开了相似合作。尽管接受了亚马逊的大额注资,但 Anthropic 仍坚持其创立之初的愿景,追求 AI 安全的终极目标。

参考文献资料

【1】UIUC 李博:GPT-4 比你想象的更「傲慢」

相关推荐
Vizio<7 分钟前
《面向物理交互任务的触觉传感阵列仿真》2020AIM论文解读
论文阅读·人工智能·机器人·机器人触觉
尤超宇32 分钟前
基于卷积神经网络的 CIFAR-10 图像分类实验报告
人工智能·分类·cnn
alex10034 分钟前
BeaverTails数据集:大模型安全对齐的关键资源与实战应用
人工智能·算法·安全
大模型真好玩1 小时前
架构大突破! DeepSeek-V3.2发布,五分钟速通DeepSeek-V3.2核心特性
人工智能·python·deepseek
春末的南方城市1 小时前
苏大团队联合阿丘科技发表异常生成新方法:创新双分支训练法,同步攻克异常图像生成、分割及下游模型性能提升难题。
人工智能·科技·深度学习·计算机视觉·aigc
OpenCSG1 小时前
超越颠覆:AI与Web3如何为传统金融的“华兴资本们”提供新生之路
人工智能·金融·web3
2401_841495641 小时前
【自然语言处理】Universal Transformer(UT)模型
人工智能·python·深度学习·算法·自然语言处理·transformer·ut
大刘讲IT2 小时前
下一代固态硬盘引入HBM缓存技术的深度可行性分析
人工智能·经验分享·缓存·ai
WeiJingYu.2 小时前
P3.7计算机视觉
人工智能·opencv·计算机视觉
胡耀超2 小时前
4、存储系统架构 - 从机械到闪存的速度革命
服务器·人工智能·架构·gpu·储存·闪存