AI Daily | AI日报：谷歌AlphaEvolve或开启无‘灵感’科学革命; Karpathy：强化学习神话被戳破！; 流匹配成ICML 2025超热门主题

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」，获取更多AI资讯和技术文章。

2025-07-14 资讯日报

新闻资讯

谷歌AlphaEvolve或开启无'灵感'科学革命

谷歌发布AlphaEvolve，借助Gemini模型发现新算法。它从AlphaGo获启发，能在编程空间搜索方案，可处理广泛问题。未来科学家将专注定义问题等，科学或告别'灵感'靠'智能'。>阅读原文

Karpathy：强化学习神话被戳破！

Karpathy：强化学习并非通往AGI的最优策略，效率随任务时长下降，与人类学习机制差异大，提出复盘式进化范式；Kevin Lu：放弃无效RL研究，转投产品开发。>阅读原文

流匹配成ICML 2025超热门主题

第42届ICML 2025年7月将在加拿大举行，生成式AI前沿热点转向新模型形态，流匹配技术成焦点。它源于流体力学，核心是将噪声转化为数据，与扩散模型本质等价，带来新模型设定。>阅读原文

苹果AI溃败，或成下一个诺基亚

彭博社爆料苹果内部问题，高层警告若不适应AI时代，苹果或成下一个黑莓或诺基亚。AI人才被挖，高层老化，新品多是换芯升级，iOS新界面也因外界批评放弃，苹果正处衰落边缘。>阅读原文

AI"穿越"玩法：根据旧照推测新模样

AI"穿越"玩法火了，外国网友用ChatGPT根据12岁照推23岁模样较准。作者测试马斯克、刘亦菲等名人照，ChatGPT、抖音小程序和豆包结果有偏差，但玩法有趣，可自己试试。>阅读原文

Cloudflare难挡Google爬虫抓取网站数据

Cloudflare新功能难阻Google爬虫，因其身兼索引和训练两职。出版商流量因Google AI功能下降，网站主怕影响搜索排名不敢阻止。Cloudflare正与Google谈判，下月判决或有转机。>阅读原文

奥特曼：OpenAI开源模型无限期推迟！

奥特曼宣布OpenAI开源模型无限期推迟，称要做额外安全测试。此前已跳票一次。而此时月之暗面、智谱AI等对手纷纷上新，这加剧了OpenAI身份危机与社区信任流失。>阅读原文

ChatGPT测试"Study Together"新功能

ChatGPT测试"Study Together"新功能，或更多向用户提问，类似对谷歌LearnLM的回应。它能发挥积极教育作用，减少被滥用可能，也可能支持多人学习小组模式。>阅读原文

物理学家让芯片速度暴增1000倍

美国科学家操控1T - TaS₂量子材料，实现比硅基芯片快1000倍的开关速度。此突破被称为"热淬火"，虽距应用尚远，但为电子设备性能提升开辟新路径。>阅读原文

张雪峰：程序员和医学生，你选哪条路？

张雪峰灵魂发问程序员和医学生选哪条路。程序员来钱快但竞争大、易被淘汰，医生起步慢却稳定、后期收入可观。选职业关键是能扛住节奏，选让自己精神不破防的路。>阅读原文

AI编程工具实测：提速预期与现实相悖

METR 调研显示，AI 编程工具可能未提升开发者生产力，反而使解决问题时间增加 19%，与开发者预期相悖。说明评估 AI 影响需真实环境实验数据，未来模型或改善。>阅读原文

OpenAI Sam Altman推迟开源模型发布

OpenAI的Sam Altman宣布推迟开源模型发布，原因是要做额外安全测试，此前也因该原因推迟过。虽引发失望，但大家认为确保安全比急于发布更重要。>阅读原文

马斯克20亿送Grok 4上火星！

Grok 4发布后表现惊艳，可快速部署游戏、生成动画。xAI成立两年，SpaceX投20亿或送其上火星。该模型算力是Grok 2的100倍，多项测试刷新纪录，不过马斯克否认xAI估值2000亿说法。>阅读原文

斯坦福：AI不能完全取代人类心理治疗师

斯坦福研究团队测试发现，AI治疗师有根本缺陷，存在歧视性回应、无法识别危险信号、谄媚等问题，可能伤害患者。不过，AI在心理健康领域仍有辅助用途。>阅读原文

张磊：底层系统能力是AI时代护城河

IDEA研究院张磊认为，当前AI领域应用发展快但大众预期乐观，研究需务实。应用可从半结构化场景切入，工业界研究要重实际问题。年轻人应夯实底层系统能力，与AI协作提升编程能力。>阅读原文

Karpathy：强化学习有问题，需新算法

Karpathy认为强化学习机制有问题，不像人类解决问题方式。他提出新算法框架，指出存在教训自然产生、推广及避免上下文窗口膨胀等问题，认为真正智能在于反思。>阅读原文

美团王兴：具身智能投资第一人

美团王兴成中国具身智能投资先锋，2023年至今旗下基金出手8次投7家公司。美团投资从侧重业务到看重技术范式，具身智能被视为下一代物理世界重要基础设施。>阅读原文

产品应用

ChatGPT揭露500万美元遗产欺诈案

Rejeana Leatherwood父亲去世，"后妈"占500万美元遗产近十年。她用ChatGPT完成法务审计，获法官认可将听证。此外，ChatGPT还帮网友诊断疑难杂症，在生活中作用大。>阅读原文

开源动态

MedAgentGym：让7B模型对标GPT - 4o

埃默里大学等团队发布MedAgentGym，可提升大模型医疗代码生成和推理能力。实验显示，经其训练的Med - Copilot - 7B达GPT - 4o相当水平，还指明了模型性能提升方向。>阅读原文

Strands Agents Tools：Python驱动的AI智能体框架

团队开源Strands Agents Tools框架，用Python驱动。它有30+预构建工具，支持多场景，几行代码就能构建智能助手，降低开发门槛，适合AI Agent开发者和Python开发者。>阅读原文

本周推荐5个超赞Github开源项目

文章推荐5个超棒的Github开源项目。如Zen Browser浏览器功能丰富、性能卓越；Pot翻译工具多接口并行；yazi文件管理器速度快；Snapdrop免安装共享文件；FileBrowser Quantum管理服务器文件更强大。>阅读原文

CopilotKit：集成前端UI与后端Agent神器

文章聚焦CopilotKit，它是AG - UI协议参考实现，用于集成前端UI与后端Agent。通过构建演示Demo，展示了前后端State共享和调用前端"工具"等能力，让开发者可轻松实现人机协作。>阅读原文

阿里ROLL框架：高效优化LLM训练

阿里推出ROLL强化学习框架，适配不同用户需求。在多任务训练中提升模型性能，采用多种创新机制提升效率，支持自定义pipeline、奖励和环境，适合学术研究与业务应用。>阅读原文

月之暗面Kimi - K2：碾压DeepSeek V3的开源模型

月之暗面开源模型Kimi - K2，总参数1万亿，针对AI Agent优化。测试中性能远超DeepSeek V3、GPT - 4.1等。训练采用MuonClip优化器，还在数据合成和强化学习上有创新。>阅读原文

英伟达等推出Long - RL，长视频训练速度翻倍

英伟达联合多机构推出Long - RL，解决大模型处理长视频和复杂推理难题。它提升训练数据长度上限、让速度翻倍，LongVILA - R1是其应用，团队称结合RL和长序列推理是AGI必经之路。>阅读原文

算法论文

CEED - VLA：VLA推理实现四倍加速

香港科大、浙大等团队提出CEED - VLA方法。针对VLA模型推理慢问题，用一致性蒸馏、混合标签监督及提前退出解码策略，实现超4倍推理加速，提升灵巧任务成功率。>阅读原文

Karpathy提出超越RL的新算法思路

Andrej Karpathy指出强化学习虽有价值，但存在渐进式学习低效、背离人类学习机制的局限。他提出"第二天性"新范式算法，不过该构想面临泛化、数据库管理等挑战。>阅读原文

Meta与NYU：让大模型精准'失忆'

Meta与纽约大学团队：提出SAMD和SAMI方法，能定位并控制大模型概念模块。可让模型'失忆'，增强推理能力，控制安全模块，为AI研究带来新思路。>阅读原文

Centaur：AI精准模拟人类行为大脑状态

德国团队开发出人类认知通用计算模型Centaur，登上Nature。它参数少、训练快，能模拟人类行为，性能超传统模型，为统一认知理论发展提供数据驱动路径。>阅读原文

研究：大模型评估结果对细节极度敏感

研究团队：大模型评估中基准测试结果对评估细节敏感，细微变化可使分数波动超5%，削弱对比可信度，呼吁建立透明、稳定、可复现的评估新标准。>阅读原文

Gemini 2.5 Pro：技术亮点与能力提升

Gemini 2.5 Pro 成功得益于多模态、LongContext、思考能力。其训练数据多样，在代码、事实性等特定能力上有提升，如增强代码能力、集成搜索工具等，还基于它构建了智能体 Gemini Deep Research。>阅读原文

EBT架构：改写Transformer，开启通用推理时代

UIUC、斯坦福与哈佛联合提出EBT架构，打破传统推理方式，以能量最小化模拟人类思维。它训练高效、推理精准，在多方面超越传统Transformer，有望实现无监督跨模态通用推理。>阅读原文

论文：RLHF/DPO即对比学习，MIO算法破难题

论文指出RLHF和DPO本质是对比学习，无法让模型突破基座模型能力。DPO有同步崩溃问题，作者提出MIO算法，用JS估计器解决该问题，实验显示MIO在多基准测试中性能优异。>阅读原文

bash 复制代码

    </p>

官网：www.AiReadingHub.com