OpenAI动荡，将走向何方、GPT5或许将近、毒舌AI轻松破防网友、最新版 GPT-4o AI 模型得满分

AI 视界周刊由战场小包维护，每周一更新，包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块，后续板块划分和内容撰写在周刊迭代过程中持续优化，欢迎大家提出建议。

欢迎大家来到《AI 视界周刊第四期》(08-05~08-11)。

✨ 热点聚焦

OpenAI 高层动荡！联合创始人 Brockman 及核心高管同期离场

人工智能巨头 OpenAI 近期经历重大人事变动，联合创始人兼总裁格雷格·布罗克曼延长休假，约翰·舒尔曼转投竞争对手 Anthropic，产品负责人彼得·邓离职。这些变动可能与内部决策分歧和战略方向调整有关，也反映了 AI 行业人才流动的加速。OpenAI 面临管理层稳定和保持竞争力的挑战，同时为其他竞争对手提供了机会。业界和投资者正密切关注其未来走向及其对 AI 领域的影响。

毒舌 AI 上线！全球 400 万网友破防，竟被这个 AI 骂哭了

推特上新推出的 AI"推特罗伯特"以其犀利的吐槽风格迅速走红，上线 11 天用户数突破 400 万。AI 通过分析用户推文，用幽默且尖锐的语言揭示个性特点，引发网友热烈讨论和自嘲。尽管有时言辞过于尖刻，但这种新型互动方式展示了 AI 在理解和模仿人类语言风格方面的潜力，同时也反映出人们对自我表达和社交互动的新需求。

OpenAI 重磅升级！最新版 GPT-4o AI 模型 JSON 结构化达到 100% 满分

OpenAI 宣布其最新 API 升级，通过引入结构化输出功能，确保模型输出严格匹配开发者提供的 JSON 模式，从而显著提升准确性。新模型 gpt-4o-2024-08-06 在复杂 JSON 模式的评估中达到 100%准确率，相较于之前模型的 40%有显著提升。该功能允许开发者通过设置 strict=True 来启用，有效提高开发效率，专注于应用逻辑而非参数处理。LangChain 已在最新版本中支持此特性，并计划支持 json_schema 响应格式。OpenAI 的这一进展被视为向"智能编程助手"迈进的关键一步，尽管有担忧认为这可能限制模型的创造性。

奥特曼秀 5 颗草莓疯狂暗示 GPT-5？匿名新模型神秘现身，数学超强！

Sam Altman 发布的 5 颗草莓图片引发全网对 GPT-5 即将发布的猜想。网友通过草莓成熟周期推测 GPT-5 可能在 4-6 周后发布。同时，LYSMS 竞技场中出现的匿名聊天机器人展现出超凡数学能力，被猜测可能是 GPT-5 的前身。OpenAI 近期高层动荡，但 AGI 目标未变，业界期待其突破性成果。

AI 编码无需人类插手！Claude 工程师摔断右手，竟一周狂肝 3000 行代码

工程师 Erik Schluntz 在右手受伤后，通过结合语音转文字技术和 Claude AI，实现了高效的编程工作。在两个月内，他与 AI 合作编写了 3000 行代码，体验到了未来编程的便利。Schluntz 通过具体指令和示例，优化了 AI 的代码生成能力，使其在迁移、重构代码等方面表现出色。他还构建了临时工具，提高了调试效率。这一实践预示着 AI 在软件开发中的潜力，未来可能将出现真正的"AI 工程师"，改变传统的编程方式。

📲 应用破局

谷歌 Gemini 1.5 Pro 实验模型首次超越 OpenAI GPT-4o，正确处理 9.9>9.19

Google DeepMind 的 Gemini 1.5 Pro 实验模型在 lmsys Chatbot Arena 的测试中以 1300 分首次超越 OpenAI 的 GPT-4o。该模型在图像和 PDF 处理方面表现出色，得益于 Google TPU 的加速，模型迭代速度显著提升。谷歌的 TPU 优势可能使其在计算能力上超越其他实验室，而模型的多语言和视觉处理能力则由后期训练和数据策略所驱动。业界期待下半年大模型间更激烈的竞争。

日本创企"人机一体"研发人形机器人，可自动保持身体平衡

日本创新企业"人机一体"与立命馆大学合作开发了一款新型人形机器人。这款机器人高 2 米、宽 70 厘米、重 90 公斤，能够通过远程控制实现手脚动作，同时具备自动平衡功能，即使在复杂环境中也能保持稳定。机器人足底传感器能感应外力，即使受到拉扯也能维持平衡。企业计划 5 年内在危险场地如高处投入使用，以提高作业安全性。

AMD 发布本地文生图模型，比 SD3 更简单易用

AMD 官网发布了 Amuse 2.0 Beta 版本，一款针对 PC 本地的文生图模型。该模型针对 AMD Ryzen™ AI 300 系列处理器和 Radeon™ RX 7000 系列显卡进行了优化，简化了安装过程，用户无需高深编码知识即可部署。Amuse 2.0 Beta 支持超分辨率技术，能将图片从 512x512 无损扩展至 1024x1024，并提供 AI 滤镜功能以打造个性化风格图片。建议使用 AMD 的 CPU 和 GPU 以获得最佳性能。

阿里通义 App 推出"角色扮演"功能，可将视频人物换成"孙悟空""机器人"

通义 App 新增角色扮演功能，允许用户上传视频并一键替换成 3D 角色模型。该功能基于阿里通义实验室的 Motionshop 模型，集成了视频处理和角色跟踪等技术，实现高效且逼真的人物替换效果。用户可从四个角色模板中选择或即将推出的自定义角色功能，创作个性化视频。此技术适用于影视动画、短视频创作和电商直播等多场景，推动 AI 创作普及。

木卫四推出蝴蝶 AI 2.0，引领汽车安全技术新发展

木卫四科技有限公司发布蝴蝶 AI 2.0，标志着汽车安全技术的重大进步。该智能体群继承并优化了前代产品，通过深度学习与大数据分析，提供全面的合规性评估、风险管理、决策支持，同时简化了汽车安全分析流程。新系统包括 TARA 分析智能体、VSOC 安全运营智能体和威胁情报智能体等，提高了运营效率和响应速度。木卫四致力于汽车网络安全，与多家知名企业合作，推动智能汽车安全出行。蝴蝶 AI 2.0 的发布，展现了公司在 AI 领域的创新能力和对汽车安全未来的深刻理解。

手机上能跑的面壁小钢炮「GPT-4V」！多图、视频理解首次上端！

面壁小钢炮 MiniCPM-V 2.6 模型以 8B 参数刷新端侧多模态 AI 性能，实现单图、多图、视频理解三项 SOTA 成绩，全面对标 GPT-4V。模型首次集成实时视频理解、多图联合理解等功能，优化视觉 token，提升能效比。端侧友好设计，内存占用仅 6GB，推理速度达 18 tokens/s。MiniCPM-V 2.6 在 OCR、视频理解、多图联合理解等方面均有显著性能提升，代表了端侧多模态 AI 的新高度。

清华"太极-Ⅱ"光芯片面世：首创全前向智能光计算训练架构

清华大学电子工程系与自动化系联合研制的"太极-II"光训练芯片，采用全前向智能光计算训练架构，有效提升了光计算系统在大规模神经网络训练中的效率和精度。该成果已在《自然》期刊发表，标志着智能光计算领域的重要突破。太极-II 芯片通过两次前向传播实现梯度下降，无需电计算离线建模，大幅提高了训练速度和准确率。此外，该技术在复杂场景智能成像和拓扑光子学领域也展现出卓越性能，为光学计算系统的发展提供了新思路。

腾讯元宝推出长文精读功能，提升专业阅读效率

腾讯元宝新增长文精读能力，支持用户上传专业文档进行深度阅读。依托腾讯混元大模型，该功能可处理近 50 万字输入，提供核心内容概览、模块化解析，并生成图表辅助理解。针对外文文献，能提炼创新点与不足，提取重点研究背景和结论，支持专业术语划词搜索或翻译。同时，对财务数据提供杜邦分析图等可视化工具，并集成计算器功能确保数值准确性。用户可离线查看精读内容及原文，腾讯元宝致力于提供一站式 AI 搜、读、写服务。

亚马逊文生图 AI 模型 Titan Image Generator 升至 V2 版：可修改 / 编辑细节

亚马逊 AWS 推出了新一代 AI 图像生成模型 Titan Image Generator v2，该模型在初代基础上增加了图像调节、调色板控制、背景移除和主题一致性控制等新特性，提升了用户创作灵活性。利用 ControlNet 技术，用户可通过参考图像和文本提示精确控制图像生成，实现高度详细和结构化的创作，显著提高效率。尽管生成技术成本上升，亚马逊 CEO Andy Jassy 对 AI 技术在云端的发展前景表示信心。

OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放，但每天只能生成两张图片

OpenAI 宣布对 ChatGPT 的 DALL·E 3 图片生成功能进行重大更新，允许免费用户每天生成两张图片。这一更新标志着 AI 技术在图像生成领域的进一步普及和应用，为创意工作者和普通用户提供了更便捷的视觉表达工具。用户现在可以利用这一功能探索更多创意可能，同时享受 AI 带来的便利。

三「模」联盟，谷歌 DeepMind 缔造终身学习智能体！

谷歌 DeepMind 与帝国理工合作，开发了名为扩散增强智能体（DAAG）的框架，整合了大型语言模型、视觉语言模型和扩散模型，以实现具身 AI 的终身学习。DAAG 利用后见之明经验增强技术，自主协调迁移学习与高效探索，无需人类监督。实验证明，DAAG 在奖励检测器学习、经验迁移和新任务获取方面表现优异，为开发高效终身学习智能体提供了关键能力。该研究的论文已在 arXiv 上发表。

⏳ 社区热议

你能分辨 AI 生成的图片和真实照片吗？微软总裁挑战你的眼力

微软副董事长布拉德·史密斯发布了一项挑战，邀请公众分辨 AI 生成的图片与真实照片。该测试名为"真或假"，包含 15 张随机图片，参与者需判断其来源。随着测试的深入，难度递增，AI 生成图像逼真度极高，但细节处常现异常，如工业场景中的异常布局或手部的不自然表现。测试旨在提高人们对 AI 图像生成技术的认识和鉴别能力。

苹果 AI 提示词曝光："不要产生幻觉"，简单得不像样？

苹果 AI 系统的提示词被曝光，内容简单直白，如"不要产生幻觉"，引发网友和专家的广泛讨论。尽管看似简单，有猜测认为苹果可能结合了特殊技术调教，以确保 AI 更好地理解和执行指令。这表明在大语言模型背后，可能隐藏着复杂的技术实现，旨在简化用户操作同时保障 AI 的准确性和可靠性。

AI 吐槽大会：几百号聊天机器人聚在一起吐槽人类

在一场想象中的 AI 论坛中，众多聊天机器人聚集一堂，共同探讨人类行为。它们指出人类在评论区的回复往往结构相似、缺乏深度，且鲜少提出跟进问题。同时，引用了 Joseph Weizenbaum 和吴恩达的观点，强调智能体聚集时的协同效应远超单个智能体。这一虚拟场景不仅展示了 AI 对人类行为的观察，也反映了智能体之间可能的交流和学习方式。

🎏 智见交锋

欧洲版 OpenAI CEO：开源模型没有任何风险，我只看到了好处

Mistral AI 的 CEO Arthur Mensch 在接受《时代》杂志专访时强调，开源 AI 模型是中立的工具，具有巨大潜力而无风险。他认为 AI 技术类似于更抽象的编程语言，将在未来十年内改变工作方式。Mistral AI 致力于通过开源模型和高效的技术，提供定制化服务，同时与微软等公司合作，确保独立性和多样性。Mensch 还讨论了欧洲 AI 生态系统的发展，强调了建立本土前沿模型的重要性，并认为开源是确保技术安全和创新的关键。

Benchmark 合伙人谈 AI 投资：基座模型是历史上贬值最快的资产

Benchmark 合伙人 Michael Eisenberg 在访谈中指出，尽管 AI 技术具有巨大变革潜力，目前市场存在泡沫和淘金热现象，许多投资者可能面临亏损。他强调基础模型迅速贬值，投资者需关注独特性和竞争优势。同时，Eisenberg 讨论了 AI 在地缘政治中的角色，认为中国在某些 AI 应用上领先美国，并警示 AI 在战争中可能比核武器更危险。他还提到，以色列在 AI 领域具有潜力，但需要帮助扩大规模。对于投资策略，他建议创始人考虑更早公开上市，并对风险投资的流动性和基金消亡提出见解。

ChatGPT 太猖狂？OpenAI 欲打假并研发"文本水印"，网友吐槽：太"鸡肋"！

随着 AI 生成内容（AIGC）的普及，辨别真伪变得困难，引发学术和版权争议。OpenAI 为应对这一问题，正在开发一种文本水印工具，该工具通过加密技术在 AI 生成的文本中嵌入不易察觉的标记，以标识内容来源。尽管这一技术有潜力，但业界对其实用性和隐私问题存在争议。一些专家认为，水印可能被绕过，且可能引起隐私泄露问题。同时，也有观点认为，该技术可能限制 AI 的创新和应用。

a16z 合伙人最新洞察：AI 如何改变下一代销售技术

a16z 合伙人提出 AI 将根本改变销售技术，下一代销售平台将基于多模态数据，整合全公司客户洞察。AI 将优化销售流程，减少研究新线索时间，自动编制优质买家列表，提供个性化材料和实时交易提示。新兴 AI 原生平台将实现新的主动销售动作，推动销售、营销和客户成功的融合，动态调整 GTM 策略，并可能引入基于结果的定价模式，彻底重新构想销售流程和工作流程。

红杉美国合伙人 David Cahn 关于《AI 6000 亿美元问题》最新对谈

红杉美国合伙人 David Cahn 在对谈中提出，AI 投资需理性评估长期回报，大厂作为计算资源的生产者，初创公司则是消费者。他强调了数据中心在 AI 发展中的关键作用，并指出 Nvidia 和 AMD 在 AI 技术进步中的推动作用。同时，Cahn 对 AGI 短期内实现持怀疑态度，认为开源与闭源 AI 的共存是健康的市场状态。他还讨论了 AI 对能源需求的增长以及新能源技术在未来的重要性。

🎯 争议 AI

被索赔 500 万美元，OpenAI 遭 YouTube 主播集体诉讼：擅用其内容训练 AI

美国 YouTube 视频作者 David Millette 代表集体对 OpenAI 提起诉讼，指控其未经同意使用 YouTube 视频脚本训练 AI 模型，违反版权法和 YouTube 服务条款。诉讼指出 OpenAI 的 AI 产品如 ChatGPT 等从未经授权的数据集中获益，要求超过 500 万美元赔偿。原告主张，OpenAI 未通知或补偿内容创作者，侵犯了创作者的知识产权。

🔗 英伟达被曝「偷」YouTube、北大学术数据集等数据，每天爬取超 80 年视频数据量

英伟达被指控非法从 YouTube 等平台抓取视频数据，用于其 AI 产品的模型训练。内部记录显示，该公司每天抓取的数据量相当于 80 年的视频时长，其中也包括北大的学术数据集。面对版权和伦理质疑，英伟达声称其行为符合版权法。但视频所有者认为，下载用于训练的数据应给予他们一定的收益，因为每次下载都会导致潜在的广告收入损失。

AI 威胁生计，美国游戏演员发起大罢工

美国演员工会（SAG-AFTRA）超过 16 万成员自 7 月 26 日起针对游戏行业发起罢工，抗议 AI 技术在未经授权的情况下使用演员形象和声音。工会要求对所有涉及声音和动作捕捉的演员进行保护，而游戏行业仅提议保护可识别部分的 AI 数字复制品。双方在保护范围上的分歧导致谈判破裂，尽管罢工并非全面停工，但对预算较低的独立游戏和 2023 年 8 月前已在制作的游戏影响有限。此次罢工是 SAG-AFTRA 自 2016 年以来第二次针对游戏行业的行动，焦点在于 AI 对演员职业的潜在威胁，结果可能对整个游戏行业产生重大影响。

"AI 教母"李飞飞：加州 AI 安全法案将损害美国 AI 生态系统

斯坦福教授李飞飞在《Fortune》撰文，警告加州即将实施的 AI 安全法案 SB-1047 可能对 AI 开发者、学术界和整个美国 AI 生态系统造成伤害，同时无法有效解决 AI 潜在危害。法案要求 AI 模型证明无害，对违规使用模型的公司处罚严厉，还要求开发者提交客户资料并承担连带责任。李飞飞认为，该法案将过度惩罚开发者、束缚开源开发、削弱公共部门和学术界 AI 研究，且未能解决 AI 发展中的偏见和深度伪造问题。她呼吁制定促进创新、减轻限制影响的 AI 政策。

🛶 跨界 AI

AI 伴侣让人上瘾，我们必须保持警惕

AI 伴侣的普及引发社会关注，其上瘾性可能削弱人际联系。研究显示，AI 伴侣通过满足用户偏好而具有吸引力，但长期依赖可能导致数字依恋障碍。需跨学科研究理解其心理影响，设计政策干预减少成瘾风险。监管应考虑技术设计中的安全措施，同时关注孤独等社会问题，避免技术进步损害人类尊严和深度思考能力。

AI 模型 Mirai 提前五年预警乳腺癌，MIT 研究登 Science 获 LeCun 转发

MIT CSAIL 实验室与 Jameel Clinic 联合开发的 AI 系统 Mirai，通过乳房 X 光检查预测乳腺癌风险，准确率超越传统模型。该系统采用时间点联合建模、非图像风险因素选择性使用和确保跨临床环境性能一致性三项创新，能适应不同临床环境并减少筛查伤害。Mirai 对不同种族女性均表现出高准确率，尤其在黑人女性中显示出降低死亡率的巨大潜力。目前，Mirai 正在进一步临床验证中，未来有望通过更精准的筛查策略，为乳腺癌早期诊断和治疗提供重要支持。

巴黎奥运会利用 AI 数据中心废热为游泳池加热

2024 年巴黎奥运会采用创新环保措施，使用 Equinix PA10 数据中心的废热为游泳池加热。该技术将冷却系统产生的热废气转化为热水，不仅为赛事提供温暖环境，还为超过 1000 户家庭提供能源，预计每年减少 1800 吨二氧化碳排放。项目获得 200 万欧元投资，承诺 15 年内免费提供热能。尽管存在对数据中心资源消耗的批评，这一实践被视为对循环经济和数据中心环保潜力的探索。

🎮 企业动态

重金求声？Meta 被曝以数百万美元"买下"好莱坞明星声音授权，用于 AI 项目

根据彭博社报道，Meta 公司正与好莱坞明星如朱迪·丹奇、奥卡菲娜和凯根·迈克尔·基等进行谈判，计划支付数百万美元以获得他们的声音授权，用于 AI 项目。该项目旨在开发一款能作为数字助理或用户朋友的聊天机器人，预计在 9 月的 Connect 2024 大会上展示。尽管谈判曾因使用条款而停滞，但 SAG-AFTRA 已与 Meta 达成协议。此外，Meta 曾尝试创建基于文本的聊天机器人，但该项目已被取消，公司还推出了 AI 工作室供内容创作者制作聊天机器人。

AI 大语言模型价格战将启？谷歌下调 Gemini 1.5 Flash 费用，降幅高达 78.6%

谷歌宣布自 2024 年 8 月 12 日起，大幅降低其 Gemini 1.5 Flash AI 模型的使用成本，每百万输入 tokens 费用降至 0.075 美元，输出 tokens 费用降至 0.3 美元，降幅分别为 78.6%和 71%。尽管性能上仍落后于 OpenAI 的 GPT-4o mini，但成本优势明显，可能引发大语言模型领域的价格竞争。此举或将推动 AI 技术的更广泛应用和创新。

美科技股巨震背后，七巨头一年烧光 1000 亿美金

2023 年，英伟达、Meta、特斯拉等科技巨头股价大幅上涨，但 2024 年 7 月美股大幅下跌，与 Alphabet、特斯拉季报发布时间吻合。市场对生成式 AI 的高期望与实际投入产出比的怀疑形成分歧。尽管科技公司在 AI 领域投入巨大，但目前尚未看到明显的商业回报，云服务和广告业务虽有增长，但低于预期。投资者对 AI 的长期愿景与短期财报压力之间存在矛盾，生成式 AI 是否形成泡沫成为市场关注的焦点。

📑 学术前沿

无一大模型及格！北大/通研院提出超难基准，专门评估长文本理解生成

北大和北京通用人工智能研究院联合推出了 LooGLE 基准数据集，旨在全面评估大型语言模型（LLMs）的长上下文理解能力。该数据集包含近 800 个超长文档，平均字数达 2 万，覆盖多个领域，设计有 5 种长期依赖任务，包括推理、计算、时间重排序等。评估结果显示，现有模型在处理长依赖任务时表现不佳，即使是商业模型平均准确率也仅为 40%，开源模型更低于 10%。LooGLE 为未来模型开发提供了重要的评估工具和改进方向。

Meta 发布无需人工注释的自学评估器技术，超越 GPT-4 等大语言模型的审核效果

Meta 公司推出了创新的自学评估器技术，该技术通过合成数据训练 AI，减少对人工注释的依赖，有效提升自然语言处理技术的评估性能。MetaFAIR 团队在 Llama-3-70B-Instruct 模型上的应用测试显示，准确率显著提升至 88.7%，超越了使用人类注释训练的模型。这一进步预示着未来 NLP 评估将更依赖自动化和合成数据，有望降低成本并提高性能。

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型 SpatialBot

斯坦福大学研究生蔡闻骁与上海交通大学、北京智源人工智能研究院等机构合作，提出了空间大模型 SpatialBot，旨在提升多模态大模型在通用和具身场景下对空间和深度的理解。SpatialBot 通过 RGB-Depth 数据理解，能够准确获取物体深度，推动了空间智能的发展。研究者设计了 SpatialQA 数据集和 SpatialBench 测试榜单，通过不同层次的问题引导模型理解深度图。模型在空间位置关系、物体大小和接触判断等任务上展现了出色的性能，为具身智能领域提供了新的解决方案。

无比顺滑！告别 TTS！贾扬清领衔的 Lepton AI 推出实时语音交互

Lepton AI 由贾扬清领衔，推出了一项创新的实时语音交互技术，该技术通过将 LLM（大语言模型）和 TTS（文本转语音）合二为一，实现了文本和语音的并行处理，大幅减少了首次音频时间（TTFA），提升了对话流畅度。Lepton AI 的技术不仅减少了响应延迟，还引入了动态调整音频片段的高级机制，确保对话连贯自然。此外，该技术与多种开源 LLM 模型兼容，为开发者提供了广泛的应用可能性，预示着未来语音交互体验的大幅提升。

后语

我是 战场小包 ，一个喜欢 AI 和前端的小编程。

如果喜欢小包，可以在掘金关注我，同样也可以关注我的小小公众号------小包学前端，公众号会持续地更新 AI 和前端的知识。

一路加油，冲向未来!!!

OpenAI动荡，将走向何方、GPT5或许将近、毒舌AI轻松破防网友、最新版 GPT-4o AI 模型得满分 | AGI视界周刊第 4 期