AI Daily | AI日报:马斯克Grok 4跑分泄露,有望改写LLM格局; 猫猫话术让大模型数学答错率翻3倍; 安克创新All in AI,代码采纳率破50%

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。 欢迎关注公众号「AI Reading Hub」,获取更多AI资讯和技术文章。

2025-07-06 资讯日报

新闻资讯

马斯克Grok 4跑分泄露,有望改写LLM格局

Grok 4跑分泄露,在多项测试中成绩优异,尤其在「人类最后考试」中得分45%远超对手。马斯克称其以「第一性原理」构建,将在7月4日后发布,编码能力或成亮点,但也有人对此存疑。>阅读原文

猫猫话术让大模型数学答错率翻3倍

Collinear AI研究发现,在数学题加特定话术能攻击推理模型,像DeepSeek - R1、OpenAI o1等错误率大增。研究探索攻击方式,总结三种模式,不同模型和数据集受影响程度有别。>阅读原文

安克创新All in AI,代码采纳率破50%

安克创新2023年起All in AI,建设AIME平台,代码采纳率突破50%。评估AI落地关注业务、技术、团队成熟度,对创新ROI按场景差异化管理,技术迭代时会果断重构平台。>阅读原文

MLLMs:长推理链致更多幻觉

斯坦福等校学者研究发现,MLLMs 推理链变长会产生更强幻觉,其幻觉来源与 LLMs 不同,涉及跨模态语义失配。主流多模态架构结构设计和训练机制失衡,易致注意力漂移,加剧语言模态支配。>阅读原文

Karpathy力挺!上下文工程成硅谷新宠

新智元报道,继提示工程后,「上下文工程」在硅谷爆火,获Karpathy等大佬支持。它是科学与艺术,构建上下文为LLM解决定制任务,智能体成败关键在于上下文质量。>阅读原文

全球AI失业潮:25年已裁94000人

2025年刚过半,全美科技行业已裁94000人,微软多次裁员。微软高管建议被裁员工用AI管理情绪引众怒。各公司为发展AI调整人力,软件、客服等岗位易被替代。>阅读原文

合成生物学教父揭秘2050年长寿未来

合成生物学教父George Church称,基因测序等技术让生物技术大突破临近。预计2050年解决老龄化,体细胞疗法或使人'返老还童'。他还提到复活物种、'镜像生命'危险,强调遗传咨询价值。>阅读原文

Figma 申请 IPO,AI 投入利弊并存

Figma 申请 IPO,其业务增长强劲,2025 年 Q1 营收同比增 46%。今年扩展工具库,推出多款新工具。虽 AI 投入短期内或拖累效率、增加成本,但 Figma 认为其是未来设计核心,会加倍投入。>阅读原文

ChatGPT:十年病因,我来搞定

Reddit网友分享,自己被不明症状困扰十年,医生未查出病因,ChatGPT分析出基因突变。很多人有类似经历。AI可辅助诊疗,但不能盲目依赖,最终还需人类医生诊断。>阅读原文

Karpathy:像细菌一样写代码助力开源

Andrej Karpathy:构建繁荣开源社区,代码要像细菌基因组一样小巧、模块化、自给自足,兼顾细菌与真核生物基因组优点,多写gist少搞git仓库。>阅读原文

徐文健创业,AI播客ListenHub上线

徐文健离开百川创业,与冯雷创立火星电波,聚焦AI音频,推出ListenHub。产品研发快,已获用户,也有质疑。公司计划出海,徐文健强调企业核心是组织和理念,要专注自身产品打磨。>阅读原文

AI 海啸来袭,人类工作岌岌可危

Andrew Wilkinson:AI 海啸将至,未来 1000 天多数专业技能或被淘汰。预计 2026 - 2030 年工作岗位大洗牌,白领失业增加。他建议做好对冲,还给出投资方向。>阅读原文

AI让互联网成"垃圾场",学术也遭殃

机器之心报道:AI生成的诡异视频在社交平台大行其道,靠夸张情节赚流量,创作还简单。更糟的是,学术领域也出现AI炮制的低质量论文,危害科研公正,别让AI成"垃圾制造机"。>阅读原文

ChatGPT 10秒解医学五年谜团

一位患者下巴问题五年未确诊,ChatGPT几秒给出建议,一分钟缓解症状。此案例引发热议,网友惊叹其能力,Hoffman赞其开启赋能个人新时代,AI正重塑医疗未来。>阅读原文

微软CEO:AI医生诊断准确率是人类4倍

微软CEO宣布AI诊断系统MAI - DxO诊断准确率达85.5%,是人类医生4倍。它模拟虚拟医生团队,既准又省。不过引发不少质疑,微软称AI是医生补充,未来是人机协作。>阅读原文

Snyk收购Invariant Labs,剑指AI安全市场

2025年6月24日,Snyk收购Invariant Labs。Snyk CEO表示增强防护能力。Invariant Labs在MCP研究领先,Snyk产品多样,二者合并方向一致,有望提升竞争力,扩张AI应用安全市场。>阅读原文

产品应用

字节X-UniMotion实现高精度动作合成

字节推出X-UniMotion:融合先进算法与界面,构建强大架构,能实现高精度动作模仿合成,可生成自然流畅角色动作,还介绍技术原理等,或用于字节平台。>阅读原文

Gemini CLI 更新:支持音视频,体验大升级

Gemini CLI 重大更新,新增音视频输入扩展多模态能力(虽未正式开启),Markdown 功能增强,集成开发工具,技术栈升级,还有主题、隐私等多方面优化。>阅读原文

推荐文章

Jason Wei:用'描述 - 执行鸿沟'判断AI自动化任务

Jason Wei提出用'描述 - 执行鸿沟'判断AI优先自动化任务。'描述 - 执行鸿沟'大的任务,如修正长文语法错误,适合自动化;反之,如编写数据处理脚本,自动化价值有限。>阅读原文

作者 6 月小结:告别读博,工作乐观向前

作者表示不再想读博、不追求研究工作,要找幸福工作。工作中 Agent 落地有成果,认为平台化能提效,选业务时乐观选高难度的,还反思消费与做视频问题。>阅读原文

刘鹏飞团队:软件3.5交互即智能时代已至

上海交通大学刘鹏飞团队指出,2024年9月后"软件3.0"过时,"软件3.5"诞生。其强调"交互即智能",以思维层面交流为基础,实现认知协作,对开发者技能有新要求。>阅读原文

谭李、肖康:数据Agent激活企业数据

数势科技谭李、飞轮科技肖康认为,数据Agent懂业务,能个性化主动服务,提升人与数据交互效率。它可激活沉睡数据,适用于灵活及时决策场景,未来将催生新角色,企业应结合数据与模型。>阅读原文

开源动态

上海AI Lab开源高质量视频数据集Sekai

上海AI Lab等机构联合推出Sekai数据集项目,含真实和虚拟两个数据集,还训练了Yume模型。构建经四环节,具多特点,有望成世界建模等领域重要数据基石。>阅读原文

开源君:ReactOS成Win系统开源替代版

开源君推荐开源项目ReactOS,它像Windows"孪生兄弟",能与NT系列兼容,运行Win32程序。项目始于1996年,有轻量、多语言等特点,安装简单,适合系统开发爱好者。>阅读原文

清华系 Agent 框架开源,要"消灭"Prompt?

清华系 Cooragent 框架开源后获 1.9k stars。创始人王政指出,大模型能力提升推动 Agent 发展,MCP 是其基础。现有 Agent 框架有局限,需解决泛化与精确性平衡等问题,未来 B 端和 C 端应并行发展。>阅读原文

算法论文

Meta优化Scaling Law,省token又提效

Meta论文有新进展,提出旋转不变型三线性注意力机制,证明其表现能改变Scaling Law系数。研究表明,2 - simplicial Transformer在有限token预算下扩展性、参数数量scaling指数等方面优于Transformer。>阅读原文

MoCa:首个双向多模态表征模型诞生

中国人民大学等团队:提出MoCa框架解决VLM用于嵌入的痛点,分两阶段训练成双向编码器。实验性能佳,未来可拓展模态、语言适应等方向推动模型发展。>阅读原文

Causal - Copilot:集成 20 + 算法,优于 GPT - 4o

加利福尼亚大学圣迭戈分校团队推出 Causal - Copilot,它集成 20 + 算法,解决因果分析使用门槛高和预训练模型局限性问题,在多场景评估中表现优异,优于 GPT - 4o,且已开源。>阅读原文

FOREWARN 框架助力具身智能部署

卡耐基梅隆大学与伯克利团队提出 FOREWARN 框架,将'世界模型'与'多模态语言推理'结合,解决具身智能部署难题。实验显示,该框架提升了成功率与适应性,虽面临挑战,但潜力大。>阅读原文

华为诺亚HLCE:测LLM编程推理极限

华为诺亚推出HLCE编程基准,含竞赛难题。顶级LLM在此表现不佳,推理模型强于非推理模型,IOI交互式题是难点。模型自我认知与推理能力发展不同步,Test Time Scaling Law未达上限,LLM多次尝试有获奖牌实力。>阅读原文

bash 复制代码
    </p>
    

官网:www.AiReadingHub.com

相关推荐
小和尚同志44 分钟前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc
堆栈future2 小时前
manus终于开放啦
llm·aigc·agent
奇舞精选3 小时前
从零搭建企业级RAG知识库问答系统
aigc
陈敬雷-充电了么-CEO兼CTO4 小时前
大模型技术原理 - 基于Transformer的预训练语言模型
人工智能·深度学习·语言模型·自然语言处理·chatgpt·aigc·transformer
墨风如雪5 小时前
AI“读心术”进化:昆仑万维天工奖励模型V2,参数越小,能力越“怪”!
aigc
小溪彼岸7 小时前
GPT-4o的修图能力强的可怕?
chatgpt·aigc
后端小肥肠12 小时前
躺赚必备!RPA+Coze+豆包:公众号自动发文,AI率0%亲测有效(附AI率0%提示词)
人工智能·aigc·coze
德育处主任14 小时前
键盘简史:从打字机到机械轴,怎么还是QWERTY布局啊?
资讯
墨风如雪1 天前
从一张图到一座城?Hitem3D 要用 1536³ 分辨率“炸”翻 3D 建模圈!
aigc