AI Daily | AI日报:谷歌AlphaEvolve或开启无‘灵感’科学革命; Karpathy:强化学习神话被戳破!; 流匹配成ICML 2025超热门主题

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。 欢迎关注公众号「AI Reading Hub」,获取更多AI资讯和技术文章。

2025-07-14 资讯日报

新闻资讯

谷歌AlphaEvolve或开启无'灵感'科学革命

谷歌发布AlphaEvolve,借助Gemini模型发现新算法。它从AlphaGo获启发,能在编程空间搜索方案,可处理广泛问题。未来科学家将专注定义问题等,科学或告别'灵感'靠'智能'。>阅读原文

Karpathy:强化学习神话被戳破!

Karpathy:强化学习并非通往AGI的最优策略,效率随任务时长下降,与人类学习机制差异大,提出复盘式进化范式;Kevin Lu:放弃无效RL研究,转投产品开发。>阅读原文

流匹配成ICML 2025超热门主题

第42届ICML 2025年7月将在加拿大举行,生成式AI前沿热点转向新模型形态,流匹配技术成焦点。它源于流体力学,核心是将噪声转化为数据,与扩散模型本质等价,带来新模型设定。>阅读原文

苹果AI溃败,或成下一个诺基亚

彭博社爆料苹果内部问题,高层警告若不适应AI时代,苹果或成下一个黑莓或诺基亚。AI人才被挖,高层老化,新品多是换芯升级,iOS新界面也因外界批评放弃,苹果正处衰落边缘。>阅读原文

AI"穿越"玩法:根据旧照推测新模样

AI"穿越"玩法火了,外国网友用ChatGPT根据12岁照推23岁模样较准。作者测试马斯克、刘亦菲等名人照,ChatGPT、抖音小程序和豆包结果有偏差,但玩法有趣,可自己试试。>阅读原文

Cloudflare难挡Google爬虫抓取网站数据

Cloudflare新功能难阻Google爬虫,因其身兼索引和训练两职。出版商流量因Google AI功能下降,网站主怕影响搜索排名不敢阻止。Cloudflare正与Google谈判,下月判决或有转机。>阅读原文

奥特曼:OpenAI开源模型无限期推迟!

奥特曼宣布OpenAI开源模型无限期推迟,称要做额外安全测试。此前已跳票一次。而此时月之暗面、智谱AI等对手纷纷上新,这加剧了OpenAI身份危机与社区信任流失。>阅读原文

ChatGPT测试"Study Together"新功能

ChatGPT测试"Study Together"新功能,或更多向用户提问,类似对谷歌LearnLM的回应。它能发挥积极教育作用,减少被滥用可能,也可能支持多人学习小组模式。>阅读原文

物理学家让芯片速度暴增1000倍

美国科学家操控1T - TaS₂量子材料,实现比硅基芯片快1000倍的开关速度。此突破被称为"热淬火",虽距应用尚远,但为电子设备性能提升开辟新路径。>阅读原文

张雪峰:程序员和医学生,你选哪条路?

张雪峰灵魂发问程序员和医学生选哪条路。程序员来钱快但竞争大、易被淘汰,医生起步慢却稳定、后期收入可观。选职业关键是能扛住节奏,选让自己精神不破防的路。>阅读原文

AI编程工具实测:提速预期与现实相悖

METR 调研显示,AI 编程工具可能未提升开发者生产力,反而使解决问题时间增加 19%,与开发者预期相悖。说明评估 AI 影响需真实环境实验数据,未来模型或改善。>阅读原文

OpenAI Sam Altman推迟开源模型发布

OpenAI的Sam Altman宣布推迟开源模型发布,原因是要做额外安全测试,此前也因该原因推迟过。虽引发失望,但大家认为确保安全比急于发布更重要。>阅读原文

马斯克20亿送Grok 4上火星!

Grok 4发布后表现惊艳,可快速部署游戏、生成动画。xAI成立两年,SpaceX投20亿或送其上火星。该模型算力是Grok 2的100倍,多项测试刷新纪录,不过马斯克否认xAI估值2000亿说法。>阅读原文

斯坦福:AI不能完全取代人类心理治疗师

斯坦福研究团队测试发现,AI治疗师有根本缺陷,存在歧视性回应、无法识别危险信号、谄媚等问题,可能伤害患者。不过,AI在心理健康领域仍有辅助用途。>阅读原文

张磊:底层系统能力是AI时代护城河

IDEA研究院张磊认为,当前AI领域应用发展快但大众预期乐观,研究需务实。应用可从半结构化场景切入,工业界研究要重实际问题。年轻人应夯实底层系统能力,与AI协作提升编程能力。>阅读原文

Karpathy:强化学习有问题,需新算法

Karpathy认为强化学习机制有问题,不像人类解决问题方式。他提出新算法框架,指出存在教训自然产生、推广及避免上下文窗口膨胀等问题,认为真正智能在于反思。>阅读原文

美团王兴:具身智能投资第一人

美团王兴成中国具身智能投资先锋,2023年至今旗下基金出手8次投7家公司。美团投资从侧重业务到看重技术范式,具身智能被视为下一代物理世界重要基础设施。>阅读原文

产品应用

ChatGPT揭露500万美元遗产欺诈案

Rejeana Leatherwood父亲去世,"后妈"占500万美元遗产近十年。她用ChatGPT完成法务审计,获法官认可将听证。此外,ChatGPT还帮网友诊断疑难杂症,在生活中作用大。>阅读原文

推荐文章

揭秘周杰伦1400万赞AI视频制作方法

作者:周杰伦抖音首条AI视频获1400多万赞。介绍用AI视频首尾帧功能制作视频,如即梦等模型,上传首尾帧、输提示词生成,还举例岳云鹏等,称AI能倒转时空。>阅读原文

电子集成技术:回顾历史,展望未来

文章回顾电子集成技术历史,提及1936年PCB、1947年晶体管及封装、1958年集成电路的发明。展望未来,探寻单原子晶体管,功能密度持续增加,判定标准从PPA进化到PPV。>阅读原文

TiledCopy与cp.async的GEMM细节分析

作者:从参数和访存连续性分析TiledCopy。TiledCopy构造与Src/Dst Tensor的Layout解耦,要注意访存连续性;基于cp.async构造TiledCopy,对ValLayout和Layout有限制,不同模式影响性能。>阅读原文

开源动态

MedAgentGym:让7B模型对标GPT - 4o

埃默里大学等团队发布MedAgentGym,可提升大模型医疗代码生成和推理能力。实验显示,经其训练的Med - Copilot - 7B达GPT - 4o相当水平,还指明了模型性能提升方向。>阅读原文

Strands Agents Tools:Python驱动的AI智能体框架

团队开源Strands Agents Tools框架,用Python驱动。它有30+预构建工具,支持多场景,几行代码就能构建智能助手,降低开发门槛,适合AI Agent开发者和Python开发者。>阅读原文

本周推荐5个超赞Github开源项目

文章推荐5个超棒的Github开源项目。如Zen Browser浏览器功能丰富、性能卓越;Pot翻译工具多接口并行;yazi文件管理器速度快;Snapdrop免安装共享文件;FileBrowser Quantum管理服务器文件更强大。>阅读原文

CopilotKit:集成前端UI与后端Agent神器

文章聚焦CopilotKit,它是AG - UI协议参考实现,用于集成前端UI与后端Agent。通过构建演示Demo,展示了前后端State共享和调用前端"工具"等能力,让开发者可轻松实现人机协作。>阅读原文

阿里ROLL框架:高效优化LLM训练

阿里推出ROLL强化学习框架,适配不同用户需求。在多任务训练中提升模型性能,采用多种创新机制提升效率,支持自定义pipeline、奖励和环境,适合学术研究与业务应用。>阅读原文

月之暗面Kimi - K2:碾压DeepSeek V3的开源模型

月之暗面开源模型Kimi - K2,总参数1万亿,针对AI Agent优化。测试中性能远超DeepSeek V3、GPT - 4.1等。训练采用MuonClip优化器,还在数据合成和强化学习上有创新。>阅读原文

英伟达等推出Long - RL,长视频训练速度翻倍

英伟达联合多机构推出Long - RL,解决大模型处理长视频和复杂推理难题。它提升训练数据长度上限、让速度翻倍,LongVILA - R1是其应用,团队称结合RL和长序列推理是AGI必经之路。>阅读原文

算法论文

CEED - VLA:VLA推理实现四倍加速

香港科大、浙大等团队提出CEED - VLA方法。针对VLA模型推理慢问题,用一致性蒸馏、混合标签监督及提前退出解码策略,实现超4倍推理加速,提升灵巧任务成功率。>阅读原文

Karpathy提出超越RL的新算法思路

Andrej Karpathy指出强化学习虽有价值,但存在渐进式学习低效、背离人类学习机制的局限。他提出"第二天性"新范式算法,不过该构想面临泛化、数据库管理等挑战。>阅读原文

Meta与NYU:让大模型精准'失忆'

Meta与纽约大学团队:提出SAMD和SAMI方法,能定位并控制大模型概念模块。可让模型'失忆',增强推理能力,控制安全模块,为AI研究带来新思路。>阅读原文

Centaur:AI精准模拟人类行为大脑状态

德国团队开发出人类认知通用计算模型Centaur,登上Nature。它参数少、训练快,能模拟人类行为,性能超传统模型,为统一认知理论发展提供数据驱动路径。>阅读原文

研究:大模型评估结果对细节极度敏感

研究团队:大模型评估中基准测试结果对评估细节敏感,细微变化可使分数波动超5%,削弱对比可信度,呼吁建立透明、稳定、可复现的评估新标准。>阅读原文

Gemini 2.5 Pro:技术亮点与能力提升

Gemini 2.5 Pro 成功得益于多模态、LongContext、思考能力。其训练数据多样,在代码、事实性等特定能力上有提升,如增强代码能力、集成搜索工具等,还基于它构建了智能体 Gemini Deep Research。>阅读原文

EBT架构:改写Transformer,开启通用推理时代

UIUC、斯坦福与哈佛联合提出EBT架构,打破传统推理方式,以能量最小化模拟人类思维。它训练高效、推理精准,在多方面超越传统Transformer,有望实现无监督跨模态通用推理。>阅读原文

论文:RLHF/DPO即对比学习,MIO算法破难题

论文指出RLHF和DPO本质是对比学习,无法让模型突破基座模型能力。DPO有同步崩溃问题,作者提出MIO算法,用JS估计器解决该问题,实验显示MIO在多基准测试中性能优异。>阅读原文

bash 复制代码
    </p>
    

官网:www.AiReadingHub.com

相关推荐
大模型教程1 小时前
一文速通提示词工程Prompt Engineering
程序员·llm·agent
AI大模型2 小时前
大模型炼丹术(八):手把手教你玩转 LLM 的指令微调
程序员·llm·agent
袁煦丞2 小时前
Photopea云端修图不求人!cpolar内网穿透实验室第641个成功挑战
前端·程序员·远程工作
PetterHillWater3 小时前
一些Cursor实践经验
aigc
对你无可奈何3 小时前
ubuntu 22.04 anaconda comfyui的安装
python·ubuntu·aigc
AI大模型3 小时前
AI大模型智能体开发实战|基于 Dify + MCP 的理财助手
程序员·llm·mcp
荣达4 小时前
「CoT」巧思还是骗局?
前端·aigc·产品经理
程序员鱼皮6 小时前
Stack Overflow,彻底凉了!
前端·后端·计算机·程序员·互联网
京东云开发者7 小时前
京东携手HarmonyOS SDK首发家电AR高精摆放功能
程序员