AI 视界周刊由战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出建议。
欢迎大家来到《AI 视界周刊第四期》(08-05~08-11)。
✨ 热点聚焦
OpenAI 高层动荡!联合创始人 Brockman 及核心高管同期离场
人工智能巨头 OpenAI 近期经历重大人事变动,联合创始人兼总裁格雷格·布罗克曼延长休假,约翰·舒尔曼转投竞争对手 Anthropic,产品负责人彼得·邓离职。这些变动可能与内部决策分歧和战略方向调整有关,也反映了 AI 行业人才流动的加速。OpenAI 面临管理层稳定和保持竞争力的挑战,同时为其他竞争对手提供了机会。业界和投资者正密切关注其未来走向及其对 AI 领域的影响。
毒舌 AI 上线!全球 400 万网友破防,竟被这个 AI 骂哭了
推特上新推出的 AI"推特罗伯特"以其犀利的吐槽风格迅速走红,上线 11 天用户数突破 400 万。AI 通过分析用户推文,用幽默且尖锐的语言揭示个性特点,引发网友热烈讨论和自嘲。尽管有时言辞过于尖刻,但这种新型互动方式展示了 AI 在理解和模仿人类语言风格方面的潜力,同时也反映出人们对自我表达和社交互动的新需求。
OpenAI 重磅升级!最新版 GPT-4o AI 模型 JSON 结构化达到 100% 满分
OpenAI 宣布其最新 API 升级,通过引入结构化输出功能,确保模型输出严格匹配开发者提供的 JSON 模式,从而显著提升准确性。新模型 gpt-4o-2024-08-06 在复杂 JSON 模式的评估中达到 100%准确率,相较于之前模型的 40%有显著提升。该功能允许开发者通过设置 strict=True 来启用,有效提高开发效率,专注于应用逻辑而非参数处理。LangChain 已在最新版本中支持此特性,并计划支持 json_schema 响应格式。OpenAI 的这一进展被视为向"智能编程助手"迈进的关键一步,尽管有担忧认为这可能限制模型的创造性。
奥特曼秀 5 颗草莓疯狂暗示 GPT-5?匿名新模型神秘现身,数学超强!
Sam Altman 发布的 5 颗草莓图片引发全网对 GPT-5 即将发布的猜想。网友通过草莓成熟周期推测 GPT-5 可能在 4-6 周后发布。同时,LYSMS 竞技场中出现的匿名聊天机器人展现出超凡数学能力,被猜测可能是 GPT-5 的前身。OpenAI 近期高层动荡,但 AGI 目标未变,业界期待其突破性成果。
AI 编码无需人类插手!Claude 工程师摔断右手,竟一周狂肝 3000 行代码
工程师 Erik Schluntz 在右手受伤后,通过结合语音转文字技术和 Claude AI,实现了高效的编程工作。在两个月内,他与 AI 合作编写了 3000 行代码,体验到了未来编程的便利。Schluntz 通过具体指令和示例,优化了 AI 的代码生成能力,使其在迁移、重构代码等方面表现出色。他还构建了临时工具,提高了调试效率。这一实践预示着 AI 在软件开发中的潜力,未来可能将出现真正的"AI 工程师",改变传统的编程方式。
📲 应用破局
谷歌 Gemini 1.5 Pro 实验模型首次超越 OpenAI GPT-4o, 正确处理 9.9>9.19
Google DeepMind 的 Gemini 1.5 Pro 实验模型在 lmsys Chatbot Arena 的测试中以 1300 分首次超越 OpenAI 的 GPT-4o。该模型在图像和 PDF 处理方面表现出色,得益于 Google TPU 的加速,模型迭代速度显著提升。谷歌的 TPU 优势可能使其在计算能力上超越其他实验室,而模型的多语言和视觉处理能力则由后期训练和数据策略所驱动。业界期待下半年大模型间更激烈的竞争。
日本创企"人机一体"研发人形机器人,可自动保持身体平衡
日本创新企业"人机一体"与立命馆大学合作开发了一款新型人形机器人。这款机器人高 2 米、宽 70 厘米、重 90 公斤,能够通过远程控制实现手脚动作,同时具备自动平衡功能,即使在复杂环境中也能保持稳定。机器人足底传感器能感应外力,即使受到拉扯也能维持平衡。企业计划 5 年内在危险场地如高处投入使用,以提高作业安全性。
AMD 发布本地文生图模型,比 SD3 更简单易用
AMD 官网发布了 Amuse 2.0 Beta 版本,一款针对 PC 本地的文生图模型。该模型针对 AMD Ryzen™ AI 300 系列处理器和 Radeon™ RX 7000 系列显卡进行了优化,简化了安装过程,用户无需高深编码知识即可部署。Amuse 2.0 Beta 支持超分辨率技术,能将图片从 512x512 无损扩展至 1024x1024,并提供 AI 滤镜功能以打造个性化风格图片。建议使用 AMD 的 CPU 和 GPU 以获得最佳性能。
阿里通义 App 推出"角色扮演"功能,可将视频人物换成"孙悟空""机器人"
通义 App 新增角色扮演功能,允许用户上传视频并一键替换成 3D 角色模型。该功能基于阿里通义实验室的 Motionshop 模型,集成了视频处理和角色跟踪等技术,实现高效且逼真的人物替换效果。用户可从四个角色模板中选择或即将推出的自定义角色功能,创作个性化视频。此技术适用于影视动画、短视频创作和电商直播等多场景,推动 AI 创作普及。
木卫四推出蝴蝶 AI 2.0,引领汽车安全技术新发展
木卫四科技有限公司发布蝴蝶 AI 2.0,标志着汽车安全技术的重大进步。该智能体群继承并优化了前代产品,通过深度学习与大数据分析,提供全面的合规性评估、风险管理、决策支持,同时简化了汽车安全分析流程。新系统包括 TARA 分析智能体、VSOC 安全运营智能体和威胁情报智能体等,提高了运营效率和响应速度。木卫四致力于汽车网络安全,与多家知名企业合作,推动智能汽车安全出行。蝴蝶 AI 2.0 的发布,展现了公司在 AI 领域的创新能力和对汽车安全未来的深刻理解。
手机上能跑的面壁小钢炮「GPT-4V」!多图、视频理解首次上端!
面壁小钢炮 MiniCPM-V 2.6 模型以 8B 参数刷新端侧多模态 AI 性能,实现单图、多图、视频理解三项 SOTA 成绩,全面对标 GPT-4V。模型首次集成实时视频理解、多图联合理解等功能,优化视觉 token,提升能效比。端侧友好设计,内存占用仅 6GB,推理速度达 18 tokens/s。MiniCPM-V 2.6 在 OCR、视频理解、多图联合理解等方面均有显著性能提升,代表了端侧多模态 AI 的新高度。
清华"太极-Ⅱ"光芯片面世:首创全前向智能光计算训练架构
清华大学电子工程系与自动化系联合研制的"太极-II"光训练芯片,采用全前向智能光计算训练架构,有效提升了光计算系统在大规模神经网络训练中的效率和精度。该成果已在《自然》期刊发表,标志着智能光计算领域的重要突破。太极-II 芯片通过两次前向传播实现梯度下降,无需电计算离线建模,大幅提高了训练速度和准确率。此外,该技术在复杂场景智能成像和拓扑光子学领域也展现出卓越性能,为光学计算系统的发展提供了新思路。
腾讯元宝推出长文精读功能,提升专业阅读效率
腾讯元宝新增长文精读能力,支持用户上传专业文档进行深度阅读。依托腾讯混元大模型,该功能可处理近 50 万字输入,提供核心内容概览、模块化解析,并生成图表辅助理解。针对外文文献,能提炼创新点与不足,提取重点研究背景和结论,支持专业术语划词搜索或翻译。同时,对财务数据提供杜邦分析图等可视化工具,并集成计算器功能确保数值准确性。用户可离线查看精读内容及原文,腾讯元宝致力于提供一站式 AI 搜、读、写服务。
亚马逊文生图 AI 模型 Titan Image Generator 升至 V2 版:可修改 / 编辑细节
亚马逊 AWS 推出了新一代 AI 图像生成模型 Titan Image Generator v2,该模型在初代基础上增加了图像调节、调色板控制、背景移除和主题一致性控制等新特性,提升了用户创作灵活性。利用 ControlNet 技术,用户可通过参考图像和文本提示精确控制图像生成,实现高度详细和结构化的创作,显著提高效率。尽管生成技术成本上升,亚马逊 CEO Andy Jassy 对 AI 技术在云端的发展前景表示信心。
OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放,但每天只能生成两张图片
OpenAI 宣布对 ChatGPT 的 DALL·E 3 图片生成功能进行重大更新,允许免费用户每天生成两张图片。这一更新标志着 AI 技术在图像生成领域的进一步普及和应用,为创意工作者和普通用户提供了更便捷的视觉表达工具。用户现在可以利用这一功能探索更多创意可能,同时享受 AI 带来的便利。
三「模」联盟,谷歌 DeepMind 缔造终身学习智能体!
谷歌 DeepMind 与帝国理工合作,开发了名为扩散增强智能体(DAAG)的框架,整合了大型语言模型、视觉语言模型和扩散模型,以实现具身 AI 的终身学习。DAAG 利用后见之明经验增强技术,自主协调迁移学习与高效探索,无需人类监督。实验证明,DAAG 在奖励检测器学习、经验迁移和新任务获取方面表现优异,为开发高效终身学习智能体提供了关键能力。该研究的论文已在 arXiv 上发表。
⏳ 社区热议
你能分辨 AI 生成的图片和真实照片吗?微软总裁挑战你的眼力
微软副董事长布拉德·史密斯发布了一项挑战,邀请公众分辨 AI 生成的图片与真实照片。该测试名为"真或假",包含 15 张随机图片,参与者需判断其来源。随着测试的深入,难度递增,AI 生成图像逼真度极高,但细节处常现异常,如工业场景中的异常布局或手部的不自然表现。测试旨在提高人们对 AI 图像生成技术的认识和鉴别能力。
苹果 AI 提示词曝光:"不要产生幻觉",简单得不像样?
苹果 AI 系统的提示词被曝光,内容简单直白,如"不要产生幻觉",引发网友和专家的广泛讨论。尽管看似简单,有猜测认为苹果可能结合了特殊技术调教,以确保 AI 更好地理解和执行指令。这表明在大语言模型背后,可能隐藏着复杂的技术实现,旨在简化用户操作同时保障 AI 的准确性和可靠性。
AI 吐槽大会:几百号聊天机器人聚在一起吐槽人类
在一场想象中的 AI 论坛中,众多聊天机器人聚集一堂,共同探讨人类行为。它们指出人类在评论区的回复往往结构相似、缺乏深度,且鲜少提出跟进问题。同时,引用了 Joseph Weizenbaum 和吴恩达的观点,强调智能体聚集时的协同效应远超单个智能体。这一虚拟场景不仅展示了 AI 对人类行为的观察,也反映了智能体之间可能的交流和学习方式。
🎏 智见交锋
欧洲版 OpenAI CEO:开源模型没有任何风险,我只看到了好处
Mistral AI 的 CEO Arthur Mensch 在接受《时代》杂志专访时强调,开源 AI 模型是中立的工具,具有巨大潜力而无风险。他认为 AI 技术类似于更抽象的编程语言,将在未来十年内改变工作方式。Mistral AI 致力于通过开源模型和高效的技术,提供定制化服务,同时与微软等公司合作,确保独立性和多样性。Mensch 还讨论了欧洲 AI 生态系统的发展,强调了建立本土前沿模型的重要性,并认为开源是确保技术安全和创新的关键。
Benchmark 合伙人谈 AI 投资:基座模型是历史上贬值最快的资产
Benchmark 合伙人 Michael Eisenberg 在访谈中指出,尽管 AI 技术具有巨大变革潜力,目前市场存在泡沫和淘金热现象,许多投资者可能面临亏损。他强调基础模型迅速贬值,投资者需关注独特性和竞争优势。同时,Eisenberg 讨论了 AI 在地缘政治中的角色,认为中国在某些 AI 应用上领先美国,并警示 AI 在战争中可能比核武器更危险。他还提到,以色列在 AI 领域具有潜力,但需要帮助扩大规模。对于投资策略,他建议创始人考虑更早公开上市,并对风险投资的流动性和基金消亡提出见解。
ChatGPT 太猖狂?OpenAI 欲打假并研发"文本水印",网友吐槽:太"鸡肋"!
随着 AI 生成内容(AIGC)的普及,辨别真伪变得困难,引发学术和版权争议。OpenAI 为应对这一问题,正在开发一种文本水印工具,该工具通过加密技术在 AI 生成的文本中嵌入不易察觉的标记,以标识内容来源。尽管这一技术有潜力,但业界对其实用性和隐私问题存在争议。一些专家认为,水印可能被绕过,且可能引起隐私泄露问题。同时,也有观点认为,该技术可能限制 AI 的创新和应用。
a16z 合伙人最新洞察:AI 如何改变下一代销售技术
a16z 合伙人提出 AI 将根本改变销售技术,下一代销售平台将基于多模态数据,整合全公司客户洞察。AI 将优化销售流程,减少研究新线索时间,自动编制优质买家列表,提供个性化材料和实时交易提示。新兴 AI 原生平台将实现新的主动销售动作,推动销售、营销和客户成功的融合,动态调整 GTM 策略,并可能引入基于结果的定价模式,彻底重新构想销售流程和工作流程。
红杉美国合伙人 David Cahn 关于《AI 6000 亿美元问题》最新对谈
红杉美国合伙人 David Cahn 在对谈中提出,AI 投资需理性评估长期回报,大厂作为计算资源的生产者,初创公司则是消费者。他强调了数据中心在 AI 发展中的关键作用,并指出 Nvidia 和 AMD 在 AI 技术进步中的推动作用。同时,Cahn 对 AGI 短期内实现持怀疑态度,认为开源与闭源 AI 的共存是健康的市场状态。他还讨论了 AI 对能源需求的增长以及新能源技术在未来的重要性。
🎯 争议 AI
被索赔 500 万美元,OpenAI 遭 YouTube 主播集体诉讼:擅用其内容训练 AI
美国 YouTube 视频作者 David Millette 代表集体对 OpenAI 提起诉讼,指控其未经同意使用 YouTube 视频脚本训练 AI 模型,违反版权法和 YouTube 服务条款。诉讼指出 OpenAI 的 AI 产品如 ChatGPT 等从未经授权的数据集中获益,要求超过 500 万美元赔偿。原告主张,OpenAI 未通知或补偿内容创作者,侵犯了创作者的知识产权。
🔗 英伟达被曝「偷」YouTube、北大学术数据集等数据,每天爬取超 80 年视频数据量
英伟达被指控非法从 YouTube 等平台抓取视频数据,用于其 AI 产品的模型训练。内部记录显示,该公司每天抓取的数据量相当于 80 年的视频时长,其中也包括北大的学术数据集。面对版权和伦理质疑,英伟达声称其行为符合版权法。但视频所有者认为,下载用于训练的数据应给予他们一定的收益,因为每次下载都会导致潜在的广告收入损失。
AI 威胁生计,美国游戏演员发起大罢工
美国演员工会(SAG-AFTRA)超过 16 万成员自 7 月 26 日起针对游戏行业发起罢工,抗议 AI 技术在未经授权的情况下使用演员形象和声音。工会要求对所有涉及声音和动作捕捉的演员进行保护,而游戏行业仅提议保护可识别部分的 AI 数字复制品。双方在保护范围上的分歧导致谈判破裂,尽管罢工并非全面停工,但对预算较低的独立游戏和 2023 年 8 月前已在制作的游戏影响有限。此次罢工是 SAG-AFTRA 自 2016 年以来第二次针对游戏行业的行动,焦点在于 AI 对演员职业的潜在威胁,结果可能对整个游戏行业产生重大影响。
"AI 教母"李飞飞:加州 AI 安全法案将损害美国 AI 生态系统
斯坦福教授李飞飞在《Fortune》撰文,警告加州即将实施的 AI 安全法案 SB-1047 可能对 AI 开发者、学术界和整个美国 AI 生态系统造成伤害,同时无法有效解决 AI 潜在危害。法案要求 AI 模型证明无害,对违规使用模型的公司处罚严厉,还要求开发者提交客户资料并承担连带责任。李飞飞认为,该法案将过度惩罚开发者、束缚开源开发、削弱公共部门和学术界 AI 研究,且未能解决 AI 发展中的偏见和深度伪造问题。她呼吁制定促进创新、减轻限制影响的 AI 政策。
🛶 跨界 AI
AI 伴侣让人上瘾,我们必须保持警惕
AI 伴侣的普及引发社会关注,其上瘾性可能削弱人际联系。研究显示,AI 伴侣通过满足用户偏好而具有吸引力,但长期依赖可能导致数字依恋障碍。需跨学科研究理解其心理影响,设计政策干预减少成瘾风险。监管应考虑技术设计中的安全措施,同时关注孤独等社会问题,避免技术进步损害人类尊严和深度思考能力。
AI 模型 Mirai 提前五年预警乳腺癌,MIT 研究登 Science 获 LeCun 转发
MIT CSAIL 实验室与 Jameel Clinic 联合开发的 AI 系统 Mirai,通过乳房 X 光检查预测乳腺癌风险,准确率超越传统模型。该系统采用时间点联合建模、非图像风险因素选择性使用和确保跨临床环境性能一致性三项创新,能适应不同临床环境并减少筛查伤害。Mirai 对不同种族女性均表现出高准确率,尤其在黑人女性中显示出降低死亡率的巨大潜力。目前,Mirai 正在进一步临床验证中,未来有望通过更精准的筛查策略,为乳腺癌早期诊断和治疗提供重要支持。
巴黎奥运会利用 AI 数据中心废热为游泳池加热
2024 年巴黎奥运会采用创新环保措施,使用 Equinix PA10 数据中心的废热为游泳池加热。该技术将冷却系统产生的热废气转化为热水,不仅为赛事提供温暖环境,还为超过 1000 户家庭提供能源,预计每年减少 1800 吨二氧化碳排放。项目获得 200 万欧元投资,承诺 15 年内免费提供热能。尽管存在对数据中心资源消耗的批评,这一实践被视为对循环经济和数据中心环保潜力的探索。
🎮 企业动态
重金求声?Meta 被曝以数百万美元"买下"好莱坞明星声音授权,用于 AI 项目
根据彭博社报道,Meta 公司正与好莱坞明星如朱迪·丹奇、奥卡菲娜和凯根·迈克尔·基等进行谈判,计划支付数百万美元以获得他们的声音授权,用于 AI 项目。该项目旨在开发一款能作为数字助理或用户朋友的聊天机器人,预计在 9 月的 Connect 2024 大会上展示。尽管谈判曾因使用条款而停滞,但 SAG-AFTRA 已与 Meta 达成协议。此外,Meta 曾尝试创建基于文本的聊天机器人,但该项目已被取消,公司还推出了 AI 工作室供内容创作者制作聊天机器人。
AI 大语言模型价格战将启?谷歌下调 Gemini 1.5 Flash 费用,降幅高达 78.6%
谷歌宣布自 2024 年 8 月 12 日起,大幅降低其 Gemini 1.5 Flash AI 模型的使用成本,每百万输入 tokens 费用降至 0.075 美元,输出 tokens 费用降至 0.3 美元,降幅分别为 78.6%和 71%。尽管性能上仍落后于 OpenAI 的 GPT-4o mini,但成本优势明显,可能引发大语言模型领域的价格竞争。此举或将推动 AI 技术的更广泛应用和创新。
美科技股巨震背后,七巨头一年烧光 1000 亿美金
2023 年,英伟达、Meta、特斯拉等科技巨头股价大幅上涨,但 2024 年 7 月美股大幅下跌,与 Alphabet、特斯拉季报发布时间吻合。市场对生成式 AI 的高期望与实际投入产出比的怀疑形成分歧。尽管科技公司在 AI 领域投入巨大,但目前尚未看到明显的商业回报,云服务和广告业务虽有增长,但低于预期。投资者对 AI 的长期愿景与短期财报压力之间存在矛盾,生成式 AI 是否形成泡沫成为市场关注的焦点。
📑 学术前沿
无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
北大和北京通用人工智能研究院联合推出了 LooGLE 基准数据集,旨在全面评估大型语言模型(LLMs)的长上下文理解能力。该数据集包含近 800 个超长文档,平均字数达 2 万,覆盖多个领域,设计有 5 种长期依赖任务,包括推理、计算、时间重排序等。评估结果显示,现有模型在处理长依赖任务时表现不佳,即使是商业模型平均准确率也仅为 40%,开源模型更低于 10%。LooGLE 为未来模型开发提供了重要的评估工具和改进方向。
Meta 发布无需人工注释的自学评估器技术,超越 GPT-4 等大语言模型的审核效果
Meta 公司推出了创新的自学评估器技术,该技术通过合成数据训练 AI,减少对人工注释的依赖,有效提升自然语言处理技术的评估性能。MetaFAIR 团队在 Llama-3-70B-Instruct 模型上的应用测试显示,准确率显著提升至 88.7%,超越了使用人类注释训练的模型。这一进步预示着未来 NLP 评估将更依赖自动化和合成数据,有望降低成本并提高性能。
李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型 SpatialBot
斯坦福大学研究生蔡闻骁与上海交通大学、北京智源人工智能研究院等机构合作,提出了空间大模型 SpatialBot,旨在提升多模态大模型在通用和具身场景下对空间和深度的理解。SpatialBot 通过 RGB-Depth 数据理解,能够准确获取物体深度,推动了空间智能的发展。研究者设计了 SpatialQA 数据集和 SpatialBench 测试榜单,通过不同层次的问题引导模型理解深度图。模型在空间位置关系、物体大小和接触判断等任务上展现了出色的性能,为具身智能领域提供了新的解决方案。
无比顺滑!告别 TTS!贾扬清领衔的 Lepton AI 推出实时语音交互
Lepton AI 由贾扬清领衔,推出了一项创新的实时语音交互技术,该技术通过将 LLM(大语言模型)和 TTS(文本转语音)合二为一,实现了文本和语音的并行处理,大幅减少了首次音频时间(TTFA),提升了对话流畅度。Lepton AI 的技术不仅减少了响应延迟,还引入了动态调整音频片段的高级机制,确保对话连贯自然。此外,该技术与多种开源 LLM 模型兼容,为开发者提供了广泛的应用可能性,预示着未来语音交互体验的大幅提升。
后语
我是 战场小包 ,一个喜欢 AI 和前端的小编程。
如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号------小包学前端,公众号会持续地更新 AI 和前端的知识。
一路加油,冲向未来!!!