All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。 欢迎关注公众号「AI Reading Hub」,获取更多AI资讯和技术文章。
2025-07-06 资讯日报
新闻资讯
马斯克Grok 4跑分泄露,有望改写LLM格局
Grok 4跑分泄露,在多项测试中成绩优异,尤其在「人类最后考试」中得分45%远超对手。马斯克称其以「第一性原理」构建,将在7月4日后发布,编码能力或成亮点,但也有人对此存疑。>阅读原文
猫猫话术让大模型数学答错率翻3倍
Collinear AI研究发现,在数学题加特定话术能攻击推理模型,像DeepSeek - R1、OpenAI o1等错误率大增。研究探索攻击方式,总结三种模式,不同模型和数据集受影响程度有别。>阅读原文
安克创新All in AI,代码采纳率破50%
安克创新2023年起All in AI,建设AIME平台,代码采纳率突破50%。评估AI落地关注业务、技术、团队成熟度,对创新ROI按场景差异化管理,技术迭代时会果断重构平台。>阅读原文
MLLMs:长推理链致更多幻觉
斯坦福等校学者研究发现,MLLMs 推理链变长会产生更强幻觉,其幻觉来源与 LLMs 不同,涉及跨模态语义失配。主流多模态架构结构设计和训练机制失衡,易致注意力漂移,加剧语言模态支配。>阅读原文
Karpathy力挺!上下文工程成硅谷新宠
新智元报道,继提示工程后,「上下文工程」在硅谷爆火,获Karpathy等大佬支持。它是科学与艺术,构建上下文为LLM解决定制任务,智能体成败关键在于上下文质量。>阅读原文
全球AI失业潮:25年已裁94000人
2025年刚过半,全美科技行业已裁94000人,微软多次裁员。微软高管建议被裁员工用AI管理情绪引众怒。各公司为发展AI调整人力,软件、客服等岗位易被替代。>阅读原文
合成生物学教父揭秘2050年长寿未来
合成生物学教父George Church称,基因测序等技术让生物技术大突破临近。预计2050年解决老龄化,体细胞疗法或使人'返老还童'。他还提到复活物种、'镜像生命'危险,强调遗传咨询价值。>阅读原文
Figma 申请 IPO,AI 投入利弊并存
Figma 申请 IPO,其业务增长强劲,2025 年 Q1 营收同比增 46%。今年扩展工具库,推出多款新工具。虽 AI 投入短期内或拖累效率、增加成本,但 Figma 认为其是未来设计核心,会加倍投入。>阅读原文
ChatGPT:十年病因,我来搞定
Reddit网友分享,自己被不明症状困扰十年,医生未查出病因,ChatGPT分析出基因突变。很多人有类似经历。AI可辅助诊疗,但不能盲目依赖,最终还需人类医生诊断。>阅读原文
Karpathy:像细菌一样写代码助力开源
Andrej Karpathy:构建繁荣开源社区,代码要像细菌基因组一样小巧、模块化、自给自足,兼顾细菌与真核生物基因组优点,多写gist少搞git仓库。>阅读原文
徐文健创业,AI播客ListenHub上线
徐文健离开百川创业,与冯雷创立火星电波,聚焦AI音频,推出ListenHub。产品研发快,已获用户,也有质疑。公司计划出海,徐文健强调企业核心是组织和理念,要专注自身产品打磨。>阅读原文
AI 海啸来袭,人类工作岌岌可危
Andrew Wilkinson:AI 海啸将至,未来 1000 天多数专业技能或被淘汰。预计 2026 - 2030 年工作岗位大洗牌,白领失业增加。他建议做好对冲,还给出投资方向。>阅读原文
AI让互联网成"垃圾场",学术也遭殃
机器之心报道:AI生成的诡异视频在社交平台大行其道,靠夸张情节赚流量,创作还简单。更糟的是,学术领域也出现AI炮制的低质量论文,危害科研公正,别让AI成"垃圾制造机"。>阅读原文
ChatGPT 10秒解医学五年谜团
一位患者下巴问题五年未确诊,ChatGPT几秒给出建议,一分钟缓解症状。此案例引发热议,网友惊叹其能力,Hoffman赞其开启赋能个人新时代,AI正重塑医疗未来。>阅读原文
微软CEO:AI医生诊断准确率是人类4倍
微软CEO宣布AI诊断系统MAI - DxO诊断准确率达85.5%,是人类医生4倍。它模拟虚拟医生团队,既准又省。不过引发不少质疑,微软称AI是医生补充,未来是人机协作。>阅读原文
Snyk收购Invariant Labs,剑指AI安全市场
2025年6月24日,Snyk收购Invariant Labs。Snyk CEO表示增强防护能力。Invariant Labs在MCP研究领先,Snyk产品多样,二者合并方向一致,有望提升竞争力,扩张AI应用安全市场。>阅读原文
产品应用
字节X-UniMotion实现高精度动作合成
字节推出X-UniMotion:融合先进算法与界面,构建强大架构,能实现高精度动作模仿合成,可生成自然流畅角色动作,还介绍技术原理等,或用于字节平台。>阅读原文
Gemini CLI 更新:支持音视频,体验大升级
Gemini CLI 重大更新,新增音视频输入扩展多模态能力(虽未正式开启),Markdown 功能增强,集成开发工具,技术栈升级,还有主题、隐私等多方面优化。>阅读原文
推荐文章
Jason Wei:用'描述 - 执行鸿沟'判断AI自动化任务
Jason Wei提出用'描述 - 执行鸿沟'判断AI优先自动化任务。'描述 - 执行鸿沟'大的任务,如修正长文语法错误,适合自动化;反之,如编写数据处理脚本,自动化价值有限。>阅读原文
作者 6 月小结:告别读博,工作乐观向前
作者表示不再想读博、不追求研究工作,要找幸福工作。工作中 Agent 落地有成果,认为平台化能提效,选业务时乐观选高难度的,还反思消费与做视频问题。>阅读原文
刘鹏飞团队:软件3.5交互即智能时代已至
上海交通大学刘鹏飞团队指出,2024年9月后"软件3.0"过时,"软件3.5"诞生。其强调"交互即智能",以思维层面交流为基础,实现认知协作,对开发者技能有新要求。>阅读原文
谭李、肖康:数据Agent激活企业数据
数势科技谭李、飞轮科技肖康认为,数据Agent懂业务,能个性化主动服务,提升人与数据交互效率。它可激活沉睡数据,适用于灵活及时决策场景,未来将催生新角色,企业应结合数据与模型。>阅读原文
开源动态
上海AI Lab开源高质量视频数据集Sekai
上海AI Lab等机构联合推出Sekai数据集项目,含真实和虚拟两个数据集,还训练了Yume模型。构建经四环节,具多特点,有望成世界建模等领域重要数据基石。>阅读原文
开源君:ReactOS成Win系统开源替代版
开源君推荐开源项目ReactOS,它像Windows"孪生兄弟",能与NT系列兼容,运行Win32程序。项目始于1996年,有轻量、多语言等特点,安装简单,适合系统开发爱好者。>阅读原文
清华系 Agent 框架开源,要"消灭"Prompt?
清华系 Cooragent 框架开源后获 1.9k stars。创始人王政指出,大模型能力提升推动 Agent 发展,MCP 是其基础。现有 Agent 框架有局限,需解决泛化与精确性平衡等问题,未来 B 端和 C 端应并行发展。>阅读原文
算法论文
Meta优化Scaling Law,省token又提效
Meta论文有新进展,提出旋转不变型三线性注意力机制,证明其表现能改变Scaling Law系数。研究表明,2 - simplicial Transformer在有限token预算下扩展性、参数数量scaling指数等方面优于Transformer。>阅读原文
MoCa:首个双向多模态表征模型诞生
中国人民大学等团队:提出MoCa框架解决VLM用于嵌入的痛点,分两阶段训练成双向编码器。实验性能佳,未来可拓展模态、语言适应等方向推动模型发展。>阅读原文
Causal - Copilot:集成 20 + 算法,优于 GPT - 4o
加利福尼亚大学圣迭戈分校团队推出 Causal - Copilot,它集成 20 + 算法,解决因果分析使用门槛高和预训练模型局限性问题,在多场景评估中表现优异,优于 GPT - 4o,且已开源。>阅读原文
FOREWARN 框架助力具身智能部署
卡耐基梅隆大学与伯克利团队提出 FOREWARN 框架,将'世界模型'与'多模态语言推理'结合,解决具身智能部署难题。实验显示,该框架提升了成功率与适应性,虽面临挑战,但潜力大。>阅读原文
华为诺亚HLCE:测LLM编程推理极限
华为诺亚推出HLCE编程基准,含竞赛难题。顶级LLM在此表现不佳,推理模型强于非推理模型,IOI交互式题是难点。模型自我认知与推理能力发展不同步,Test Time Scaling Law未达上限,LLM多次尝试有获奖牌实力。>阅读原文
bash
</p>