AI Daily | AI日报：AI浏览器混战，Chrome地位受挑战; 研究：AI让资深开发者编程变慢19%; 华人女记者深扒OpenAI数据盗窃黑幕

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」，获取更多AI资讯和技术文章。

2025-07-11 资讯日报

新闻资讯

AI浏览器混战，Chrome地位受挑战

AI时代浏览器竞争激烈，Perplexity推Comet，因被谷歌拒绝合作而自研，有用户基础可引流。OpenAI也将入局争数据，新势力不断涌入，谷歌守Chrome，国内玩家也在发力。>阅读原文

研究：AI让资深开发者编程变慢19%

METR研究：16位资深开发者测试显示，使用AI编程效率降19%。原因有编写提示词等耗时、对项目理解差异等。网友看法不一，还给出使用建议，强调正确用AI。>阅读原文

华人女记者深扒OpenAI数据盗窃黑幕

华人女记者郝珂灵深挖OpenAI，指出其宣称造福人类却沦为资本机器。技术发展依赖数据和算力，成本高昂。AI商业化加剧不平等，AGI定义模糊却成行动正当性来源。>阅读原文

小扎2亿美金挖走苹果AI大将庞若鸣

外媒爆料小扎花2亿美金从苹果挖走庞若鸣，薪酬超库克。庞若鸣履历亮眼，领导苹果自研大模型核心团队，其成果影响iPhone、Siri等产品未来。>阅读原文

OpenAI招揽大神，剑指Chrome霸权

OpenAI欲挑战谷歌Chrome霸权，招揽曾参与开发Chrome的Darin Fisher等工程师，从零打造AI优先新浏览器。此前有收购意向，现战略转变，浏览器大战硝烟再起。>阅读原文

Google 2025算法更新及百度算法对比揭秘

Google 2025年6月核心算法更新，预计3周完成，未透露方向。应对可先观察，优化内容质量和体验。百度算法更新后，内容需适配AI大模型推荐逻辑，更结构化。>阅读原文

Grok 4爆火，华人团队闪耀AI界

新智元报道：Grok 4发布引关注，作战图显示团队80%为华人。独立评测Grok 4成绩领先，在多方面表现出色，但"karminski - 牙医"质疑其代码基准有过拟合问题。>阅读原文

马斯克发布Grok - 4，性能碾压Claude 4

马斯克发布Grok - 4，其训练量是Grok 2的100倍，算力投入巨大。在多项推理基准测试中完胜Claude Opus 4，具备原生工具调用等能力，xAI后续聚焦编程和多模态Agent。>阅读原文

马斯克发布 Grok 4，推理能力提升 10 倍

xAI 发布 Grok 4 与 Grok 4 Heavy，推理能力跃升 10 倍，多测试接近满分。马斯克赞其为世界最佳 AI。它在多方面表现优异，长任务和推理效率佳，但代码能力弱，付费贵，后续还有新品计划。>阅读原文

马斯克：Grok 4超越OpenAI等LLM

马斯克称Grok 4超越OpenAI等LLM，它在多项指标领先。不过，Grok系列口碑一般。多案例测试显示，Grok 4在编码、经商表现不错，数学偶翻车，图像能力进步小，API速度和价格有其特点。>阅读原文

马斯克：Grok 4编程碾压，或成Cursor终结者！

xAI发布Grok 4，马斯克称其智能超博士生。它在多项基准测试中领先，编码能力或超Cursor。后续还将推编码、多模态和视频生成模型，网友认为它或给OpenAI带来压力。>阅读原文

小扎14亿挖走苹果AI人才庞若鸣

庞若鸣离开苹果加入Meta，扎克伯格给出2亿美元薪酬包。Meta为挖顶级AI人才不惜血本，超级智能实验室薪资惊人，但也引发内部文化问题，如OpenAI CEO就曾批评。>阅读原文

华为系EDA九同方落子上海

华为哈勃投资的九同方迁址上海，加速融入长三角产业生态。其熬过十年研发困境，产品达国际领先。华为借此建自主工具链，当下国产EDA市场增长，企业并购整合转向全流程生态构建。>阅读原文

Grok 4刷新ARC-AGI-2纪录，离AGI还有多远？

xAI的Grok 4在ARC-AGI-2测试中成绩优异，成最强公开模型，打破噪声屏障。但网友质疑测试指标，且其离人类表现差距大。它在多测试领先，定价便宜，马斯克赞其能力强。>阅读原文

谷歌：32个T5Gemma或复兴编 - 解码架构

谷歌无视xAI热度，更新Gemma系列。发布MedGemma及32个T5Gemma模型，基于适应技术，性能超仅解码器模型，有人认为它或让编码器 - 解码器架构复兴，但也有人嫌模型太多难选。>阅读原文

英伟达市值破4万亿，黄仁勋将晤特朗普

英伟达市值突破4万亿美元成全球最高，CEO黄仁勋将与特朗普在白宫会面。此前美出口管制让英伟达芯片销售损失巨大，后续其人工智能芯片出口或再受限。>阅读原文

马斯克Grok 4发布，性能提升却创新不足

马斯克发布Grok 4，公开测试跑分有进步，但高级推理差、视觉理解弱，性能提升靠符号工具，无技术创新，'幻觉'问题依旧，官方对道德对齐信心不足，未来功能兑现存疑。>阅读原文

90 后哈工大学霸携斯坦德冲刺 IPO

90 后王永锟放弃名企 offer 和深造机会，创立斯坦德机器人。公司发展几经坎坷，随国家产业政策布局多领域，现拟港交所 IPO，虽业绩向好但研发投入变化引关注，正进军工业具身智能。>阅读原文

Meta弃Llama，改用Claude写代码

Meta工程师：内部开发弃用Llama，改用Claude Sonnet，因Llama表现不佳，Claude写代码能力一流。Claude背后公司Anthropic收入增长快，虽用户少但开发者贡献大。>阅读原文

马斯克：Grok 4编程碾压，性能登顶！

xAI发布Grok 4，马斯克称其智能超博士生。它在多项基准测试中领先，编码或超Cursor。性能提升源于训练和计算扩展，后续还将推三款模型，引发网友热议。>阅读原文

Meta2亿邀庞若鸣，其晒苹果最新论文

苹果庞若鸣即将跳槽Meta，Meta花2亿邀请。庞若鸣宣传苹果研究，其设计的AXLearn系统用于大规模深度学习模型训练，有可扩展性和高性能，在多方面表现出色且已广泛应用。>阅读原文

微软BioEmu：蛋白质模拟从数年到几小时

微软发布BioEmu模型，能将蛋白质动态模拟从数年压缩至几小时。它可解决传统方法难题，训练整合多数据源、用多阶段策略，有望变革生物学和药物研发领域。>阅读原文

马斯克发布Grok 4，AI界掀起风暴

马斯克发布Grok 4，其基准测试成绩制霸，'人类最终测试'远超同行。成功靠多智能体协作、追求真相哲学和高算力投入。它在多领域应用潜力大，还公布定价，坦言图像理解短板，给出解决时间表。>阅读原文

Logan Kilpatrick：谷歌AI宣传鬼才

Logan Kilpatrick被谷歌从OpenAI挖来，成AI"宣传达人"，包揽约90%营销。他推动AI Studio发展，团队转入DeepMind。他倾听开发者需求获好评，还投资50多家初创公司。>阅读原文

马斯克发布Grok - 4，成AI新王

马斯克的 xAI 发布 Grok - 4，在多基准测试碾压对手，第三方测评登顶。编码、数学指数第一，有 256k 上下文等功能。价格高，今日上线，甚至有已售罄现象。>阅读原文

Grok 4发布，「人类最后的考试」碾压对手

Grok 4发布并对X Premium+订阅者开放，经测试是领先AI模型，人工智能指数超对手，各基准测试成绩优异，在「人类最后的考试」拿下50.7%，说明AI智能增长远未到天花板。>阅读原文

马斯克发布 Grok 4，年费飙到 2 万+

马斯克发布 Grok 4，称其是世界最好的 AI，能在 SAT、GRE 接近满分。它推理能力强，基准测试成绩超其他 SOTA 模型，多方面能力获提升，已上线但付费贵。>阅读原文

Meta重构AI团队，成效待察

Meta高薪挖人组建MSL，运行架构和研究方向受关注。有员工澄清FAIR与其他团队区别，还透露人员调动。同时，Meta内部动荡，员工抱怨改革侵蚀文化，阻碍AI发展，成效待察。>阅读原文

OpenAI将推AI浏览器挑战谷歌Chrome

路透社称OpenAI将发布AI Agent浏览器，未来几周登场。它或挑战谷歌Chrome，部分交互在聊天界面完成，还能整合产品自动办事，但面临Perplexity等公司的竞争。>阅读原文

产品应用

阿里：AI助力前端自动化测试落地

随着AI发展，阿里团队为解决前端测试人力耗费大问题，落地基于AI的UI自动化测试框架。用开源工具和技术栈，有自然语言驱动等机制，还解决大模型幻觉等挑战，同时有数据分析Agent方案。>阅读原文

飞书大会发布多款升级AI办公产品

飞书在2025未来无限大会发布升级多款产品。知识问答达M3标准，可秒搜文档；飞书会议达M4，支持声纹识别；多维表格性能和应用构建升级，还有AI工具全家桶。>阅读原文

钉钉助力，妇科大模型准确率超 90%

壹生检康王强宇团队认为训练妇科大模型能缓解医疗服务不足。在钉钉支持下，豆蔻妇科大模型准确率从 77.1% 提至 90.2%。后续将迭代产品，钉钉也会帮伙伴构建模型。>阅读原文

n8n-mcp：自动生成n8n工作流

n8n是热门AI应用编排工具，用好它生成工作流不易。现在有了n8n - mcp，简单配置就能让AI自动生成n8n工作流，地址：github.com/czlonkowski... - mcp。>阅读原文

基于OpenAPI和AI coding构建上云智能体

伍胥等人赞同Andrej Karpathy软件编程范式观点，认为解决现实问题应让人控制流程、LLM执行。介绍上云智能体构建实践，含业务场景、构建方法等，展示效果并提出性能和效果的后续优化方向。>阅读原文

grok 4测试成绩亮眼，实际水平待察

grok 4公布核心数据：训练成本后期持平，有明确定价。在多类能力测试中排名第一，如通用能力、数学能力等，但实际水平还得再看看。>阅读原文

飞书AI升级，助力企业解决业务痛点

7月9日飞书未来无限大会上，CEO谢欣称提供'真能用、真落地'AI产品。飞书升级多维表格，发布知识问答与开发套件。直播帮嘉宾解决业务难题，还推出AI应用成熟度模型，促进行业健康发展。>阅读原文

开源动态

谷歌开源MCP，10行代码打通AI与DB

谷歌开源数据库MCP Toolbox，可简化工具管理，助力开发Gen AI工具。它让智能体轻松访问数据库，有简化开发、性能佳、安全强等优势，还能提升工作流程、节省开发时间。>阅读原文

Meituan - M17团队：OIBench评测大模型编程能力

当前大模型编程能力评估体系有诸多问题，Meituan - M17团队推出OIBench数据集评测18个主流大模型，发现推理、闭源模型表现优，还计划举办人机协作编程竞赛推动技术发展。>阅读原文

亚马逊AutoGluon：3行代码打造高精度模型

AutoGluon是AWS AI开发的开源AutoML框架，仅3行代码可训练部署高精度模型，支持多类型数据，有自动建模等亮点，适合初学者、数据科学家等人群。>阅读原文

算法论文

DreamPRM登顶MathVista，革新多模态推理

加州大学圣地亚哥分校团队开发DreamPRM，在MathVista测评夺冠。它用双层优化解决多模态训练难题，让小模型超越大模型，还能提升基础模型性能，为多模态训练提供新范式。>阅读原文

MMSciBench揭示AI理科推理能力短板

耶鲁、复旦等推出MMSciBench评测AI科学推理能力，发现主流模型处理图文混合问题差，推理错误是主因，且英文推理或更有效，未来需提升多模态理解和逻辑推理能力。>阅读原文

Latent CoT：突破LLM推理局限

论文指出显式思维链约束模型表达与计算效率，潜在思维链将推理移入连续隐藏状态空间。它建立统一框架，分垂直、水平递归方法，虽面临可解释性等挑战，但有望成下一代AI推理核心。>阅读原文

北大DreamArt：单图生成可交互可动物体

北大团队：为解决可动物体生成难题，提出DreamArt框架，经三阶段流程生成可交互可动物体，表现优于基线方法，但也存在生成不符物理规律、受视角遮挡影响等问题。>阅读原文

人大斯坦福等提出MoCa双向多模态框架

人大、斯坦福等机构提出MoCa框架，通过持续预训练和异构对比微调，解决传统多模态嵌入模型的局限，提升性能和泛化能力，在测试中表现优异，未来将拓展多领域应用。>阅读原文

西工大团队：智能流体力学研究进展

西工大张伟伟团队：系统调研人工智能与流体力学交叉领域，从建模、计算、应用总结成果，分析研究格局。指出领域呈指数增长，中美主导，未来可构建协同架构解决复杂流体问题。>阅读原文

上海AI Lab、复旦POLAR开启奖励模型预训练新时代

上海AI Lab、复旦推出预训练奖励模型POLAR，采用策略判别学习新范式，摆脱对偏好数据人工标注的依赖。它适配强化微调，在性能和泛化性上表现出色，有望打通RL链路扩展的最后一环。>阅读原文

研究：LLM'思维链'难解释推理过程

Anthropic的研究人员用多项选择题测试Claude 3.7 Sonnet和DeepSeek - R1，发现模型常被误导性提示影响，但'思维链'很少提及提示，说明'思维链'不足以解释其推理过程。>阅读原文

UIUC：PAPO提升多模态推理感知能力

UIUC研究指出，大型多模态模型复杂推理瓶颈源于视觉感知缺陷。提出PAPO方法，添加隐式感知损失，无需额外标注提升感知能力，在多基准提升效果好，还解决了KL黑客问题。>阅读原文

阿里 - 清华 D - MoLE 让模型持续学习动态进化

阿里安全与清华团队研究成果登 ICML 2025。提出 D - MoLE 框架解决多模态大模型持续学习难题，实验中性能显著优于基线，训练效率高，还能用于阿里安全审核模型提升适应力。>阅读原文

华人团队揭秘AI方法论，指向「思想微积分」时代

美国华人团队发布「AI方法论三部曲」。提出CRR模型区分AI公司价值，指出AI本质是认知革命，构建「AI认知几何学」框架划分其演进五阶段，认为未来是「思想微积分」时代。>阅读原文

PhysRig：开启角色动画物理真实新时代

UIUC与Stability AI：传统LBS绑定技术有缺陷，提出PhysRig框架，通过可微分物理模拟实现真实角色变形，能反推参数、做动作迁移，未来将开源并封装为插件。>阅读原文

UniVLA：统一VLA架构引领具身智能新突破

北京智源研究院与中科院自动化所提出 UniVLA 架构，统一建模视觉、语言与动作信号。其以自回归方式学习，后训练引入世界模型提升下游决策性能，刷新多项仿真基准纪录，应用潜力大。>阅读原文

新研究缓解LLM「拒绝回答」难题

达特茅斯学院研究团队：当前SOTA LLM存在过度谨慎倾向，模型规模与敏感内容判断能力无关。用新方法生成FalseReject数据集微调，使模型接受率提升，平衡了实用性与安全性。>阅读原文

bash 复制代码

    </p>

官网：www.AiReadingHub.com