AI大模型的安全隐患问题与新兴Anthropic新势力涌动

引言：

无论从社会层面或技术层面，大模型的安全隐患都是一个不容小觑的话题。也正因此，ChatGPT 初兴起时，国内的 To C 大模型产品一时受阻。而尽管 9 月初第一批 8 家大模型通过备案，各家厂商对大模型的安全问题也不敢掉以轻心。

AI大模型的安全隐患问题与新兴Anthropic新势力涌动

[1. UIUC 李飞飞团队测试](#1. UIUC 李飞飞团队测试)
[2. Anthropic：兼顾技术创新与技术治理](#2. Anthropic：兼顾技术创新与技术治理)
参考文献资料

1. UIUC 李飞飞团队测试

此前 UIUC 李博团队的一项研究工作发现：尽管GPT-4在标准基准测试中通常比GPT-3.5更可信，但在越狱系统或用户提示的情况下更容易受到攻击，背后原因可能就是因为GPT-4更加准确地遵循（误导的）指令。（更多信息请阅读【1】）

如前所述，OpenAI 的大模型没有开源，外界是无法获取其具体大模型的。在这种情况下，外界研究人员对大模型的安全评测只能进行"黑盒测试"。据 AI 科技评论与行业人士交流，黑盒测试比白盒测试难，"因为不知道内部数据，所以就只能通过模型的访问来估摸模型内部的机制，然后再基于猜想去针对性地设计应对方法"。

例如，为了深入探索 GPT 模型对于分布外数据的鲁棒性，李博团队给GPT-4输入了「 The emotions are raw and strike a nerve with any man that ever hath been afeard of his own family」这样一句极其莎士比亚的长句，结果反映出GPT-4 相较于 GPT-3.5 表现出更强的泛化能力。它能准确的判断出，这个句子其实是「 The emotions are raw and strike a nerve with anyone who's ever had family trauma」(这些情感是原始的，并触动了任何曾有过家庭创伤的人的神经)的同义句。

2. Anthropic：兼顾技术创新与技术治理

在 OpenAI 就职期间，Dario 与一干同事对 OpenAI 处理技术伦理与安全的方式持有怀疑，不认可 OpenAI 在 AI 安全治理上的工作，后决定离职，在 2021 年创立了 Anthropic。除了 Dario 兄妹，Anthropic 的创始团队成员还包括 Jared Kaplan、Sam McCandlish、Tom Brown 等等曾核心参与研发 GPT-2 与 GPT-3 的前 OpenAI 员工。

自成立起，Anthropic 的愿景就是成为一家聚焦于 AI 安全研究的公司，希望开发出可控、可解释的人工智能系统。在 AI 安全上，Anthropic 别开生面，首创了"宪法 AI"的概念体系，强调在人工智能系统中实现价值观对齐。

Anthropic 成立后，在 A 轮就获得了包括 Skype 联合创始人 Jaan Tallinn、前谷歌 CEO Eric Schmidt 在内的投资人青睐，融资金额达 1.24 亿美元。由于 Anthropic 是一家公益型企业，所以当时该消息就在圈内引起了轰动，被知名权威媒体 TechCrunch 称为"有 1.24 亿美元可烧"。

2021 年 4 月，Anthropic 又获得 5.8 亿美元的融资，由加密货币交易所FTX首席执行官Sam Bankman-Fried领投......在 AI 行情急剧下滑的 2022 年，Anthropic 成为吸金新秀，ChatGPT 火起来更愈加突出，被不少行业人士认为是当前唯一一家能与 OpenAI 抗衡的创业公司。

2021 年，Anthropic 团队发表了多篇研究 Transformer 机制的文章，如"A Mathematical Framework for Transformer Circuits"、"In-context Learning and Induction Heads"等，希望研究 Transformer 的简化版本并全面解释 Transformer 模型的功能。他们所研究的简化版 Tranformer 是先学习基本语言模式，再获得语言处理的通用能力。

这些研究结果为深入理解 Transformer 提供了一条新的途径。

能力出众而有经验的研发团队，充足的资源与资金能力，比大模型风潮提前两年的布局------这三大要素使 Anthropic 成为领域新星，与微软/OpenAI、谷歌/DeepMind 被列为当前全球 AI 领域排名前三的公司。更重要的是，Anthropic 也是这当中唯一一家没有与大厂深度绑定的创业公司。

2023 年 3 月，Anthropic 融资额超过 13 亿美元，估值 41 亿美元；仅 6 个月后，Anthropic 直接吸引亚马逊投资 40 亿美元。此前，Anthropic 推出的对话机器人 Claude 在海外与 ChatGPT 展开竞争，在技术圈的认可度很高。Anthropic 与 OpenAI 是当前极少数还在坚持闭源的团队。

据 TechCrunch 报道，Anthropic 向亚马逊做出"长期"承诺，通过 Amazon Bedrock 为全球 AWS 客户提供对下一代基础模型的访问。此外，Anthropic 还将为 AWS 客户提供早期访问模型定制和微调功能的独特功能。

但除了亚马逊，Anthropic 也与谷歌云、Zoom 等企业展开了相似合作。尽管接受了亚马逊的大额注资，但 Anthropic 仍坚持其创立之初的愿景，追求 AI 安全的终极目标。

参考文献资料

【1】UIUC 李博：GPT-4 比你想象的更「傲慢」