曝Bengio新动向:世界模型+数学证明,确保AI系统正常运作

西风 发自 凹非寺

量子位 | 公众号 QbitAI

深度学习三巨头之一Yoshua Bengio的下一步动向公开了,关于AI安全------

加入了一个名为Safeguarded AI(受保护的人工智能)的项目,担任科学总监。

据介绍,Safeguarded AI旨在:

通过结合科学的世界模型和数学证明,构建一个负责理解和降低其它AI Agent风险的AI系统。**

主打的就是一个量化安全保障。

该项目由英国高级研究与发明局(ARIA)提供支持,据说未来ARIA将投入共5900万英镑(约合RMB5.37亿)。

Bengio表示:

如果你计划部署某种技术,鉴于AI行为异常或误用可能带来非常严重的后果,你需要提出充分的理由,最好能提供强有力的数学保证,确保你的AI系统将正常运作。

"受保护的AI"

Safeguarded AI项目被划分为三个技术领域,每个领域都有特定的目标和预算:

  • 支架(Scaffolding),构建一个可扩展、可互操作的语言和平台,用于维护现实世界模型/规范并检查证明文件。
  • 机器学习 (Machine Learning),使用前沿AI帮助领域专家构建一流的复杂现实世界动力学的数学模型,并利用前沿AI训练自主系统
  • 应用 (Applications),在关键的网络-物理操作环境中部署一个由"把关AI"保护的自主AI系统,通过量化的安全保障释放重要的经济价值

官方表示,Bengio加入后将**特别关注TA3和TA2****,在整个计划中提供科学战略建议。

ARIA还计划投入1800万英镑(约合RMB1.64亿)成立一个非营利组织,领导TA2的研发工作。

Safeguarded AI项目总监是前Twitter高级软件工程师David "davidad" Dalrympl e,去年9月份加入ARIA。

对于Bengio的到来,Dalrymple还在X(原推特)上传了俩人的合照:

关于"构建一个负责理解和降低其它AI Agent风险的AI系统"的具体方法,David "davidad" Dalrymple、Yoshua Bengio等人写了份文件。

其中提出了一套称为"Guaranteed Safe AI(保证安全的AI)"的模式,主要是通过三个核心相互作用量化AI系统的安全保障:

  • 世界模型,提供数学描述,阐述AI系统如何影响外部世界,并妥善处理贝叶斯和奈特不确定性
  • 安全规范,定义哪些效果是可接受的数学描述
  • 验证器,提供证明AI符合安全规范的可审计证书

他们还为创建世界模型的策略,划分了L0-L5安全等级:

  • Level 0:没有明确的世界模型。关于世界的假设隐含在AI系统的训练数据和实现细节中。
  • Level 1:使用经过训练的黑盒世界模拟器作为世界模型。
  • Level 2:使用机器学习生成的概率因果模型的生成模型,可以通过检查它是否为特定的人类制作的模型(例如科学文献中提出的模型)分配足够的可信度来进行测试。
  • Level 3:使用(一个或多个)概率因果模型(或它们的分布),可能在机器学习的帮助下生成,这些模型经过人类领域专家的全面审核。
  • Level 4:使用关于真实世界现象的世界模型,这些模型被正式验证为基本物理定律**的合理抽象。
  • Level 5:不依赖具体的世界模型,而是使用覆盖所有可能世界的全局性安全规范。

"AI风险"备受学术圈关注

"AI风险"一直是行业大佬们关注的焦点话题之一。

Hinton离职谷歌,就是为了自由地讨论AI风险问题。

之前,更是有吴恩达、Hinton、LeCun、哈萨比斯等AI巨佬们线上"对喷"的大型场面。

吴恩达曾表示:

对AI的最大担忧其实是,AI风险被过度鼓吹,导致开源和创新被严苛规定所压制。

某些人传播(AI灭绝人类的)恐惧,只是为了搞钱。


DeepMind CEO哈萨比斯则认为:

这不是恐吓。AGI的风险如果不从现在就开始讨论,后果可能会很严重。

我不认为我们会想在危险爆发之前才开始做防范。

Bengio之前还和Hinton、姚期智、张亚勤等人工智能大拿,发表了一封公开信《在快速进步的时代管理人工智能风险(Managing AI RIsks in an Era of Rapid Progress)》。

其中就指出人类必须认真对待AGI在这10年或下一个10年内在许多关键领域超越人类能力的可能。建议监管机构应该对AI发展全面洞察,尤其警惕那些在价值数十亿美元的超级计算机上训练出来的大模型。

就在一个月前,Bengio还以"Reasoning through arguments against taking AI safety seriously(回应反对认真对待AI安全的观点)"为题写了一篇文章,其中分享了他的最新想法,感兴趣的家人可以康康~

yoshuabengio.org/2024/07/09/...

Guaranteed Safe AI:

arxiv.org/abs/2405.06...

参考链接:

1\][www.technologyreview.com/2024/08/07/...](https://link.juejin.cn?target=https%3A%2F%2Fwww.technologyreview.com%2F2024%2F08%2F07%2F1095879%2Fai-godfather-yoshua-bengio-joins-uk-project-to-prevent-ai-catastrophes%2F "https://www.technologyreview.com/2024/08/07/1095879/ai-godfather-yoshua-bengio-joins-uk-project-to-prevent-ai-catastrophes/") \[2\][www.reddit.com/r/singulari...](https://link.juejin.cn?target=https%3A%2F%2Fwww.reddit.com%2Fr%2Fsingularity%2Fcomments%2F1emcwox%2Fai_godfather_yoshua_bengio_has_joined_a_uk%2F "https://www.reddit.com/r/singularity/comments/1emcwox/ai_godfather_yoshua_bengio_has_joined_a_uk/") \[3\][x.com/davidad/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fdavidad%2Fstatus%2F1821155265456033803 "https://x.com/davidad/status/1821155265456033803") --- **完** ---

相关推荐
Blossom.1182 小时前
使用Python实现简单的人工智能聊天机器人
开发语言·人工智能·python·低代码·数据挖掘·机器人·云计算
科技小E2 小时前
EasyRTC嵌入式音视频通信SDK打造带屏IPC全场景实时通信解决方案
人工智能·音视频
ayiya_Oese2 小时前
[模型部署] 3. 性能优化
人工智能·python·深度学习·神经网络·机器学习·性能优化
仙人掌_lz2 小时前
机器学习与人工智能:NLP分词与文本相似度分析
人工智能·机器学习·自然语言处理
jndingxin2 小时前
OpenCV CUDA模块中矩阵操作------归一化与变换操作
人工智能·opencv
ZStack开发者社区2 小时前
云轴科技ZStack官网上线Support AI,智能助手助力高效技术支持
人工智能·科技
每天都要写算法(努力版)2 小时前
【神经网络与深度学习】通俗易懂的介绍非凸优化问题、梯度消失、梯度爆炸、模型的收敛、模型的发散
人工智能·深度学习·神经网络
Blossom.1182 小时前
Web3.0:互联网的去中心化未来
人工智能·驱动开发·深度学习·web3·去中心化·区块链·交互
kyle~2 小时前
计算机视觉---目标检测(Object Detecting)概览
人工智能·目标检测·计算机视觉
hao_wujing3 小时前
YOLOv8在单目向下多车辆目标检测中的应用
人工智能·yolo·目标检测