26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶，马斯克疑似泄露Claude参数)

共收录 28 条资讯

今日必看

阿里发布HappyHorse视频模型 --- 阿里杀入视频生成前列，音频视频双修
微软揭开Agent测评的遮羞布 --- 你怎么证明Agent真的干完活了？
马斯克意外泄露Claude参数规模 --- 拿Grok拉踩竞品时不小心爆了料
Claude Code上线Monitor工具 --- 不用再轮询了，后台进程实时推送
为啥模型没变大Agent却行了？ --- 靠外挂解决大模型失忆和执行问题
Seedance 2.0一句话生成视频广告 --- 省下几万块VFX预算
即梦推出AI原生动态叙事创作工具Octo --- AI变成"创意合伙人"同屏共创
微信公众号重拳打击非真人自动化写作 --- 量产AI水文的公号危险了
MiniMax发布全模态命令行工具MMX-CLI --- 一行代码原生接入，告别MCP Server
Claude推出企业级托管Agent服务 --- Claude进军企业Agent托管市场
字节发布全双工语音大模型 --- 语音助手能边听边说并支持打断了
Anthropic推AI代理托管服务 --- 官方下场帮你托管AI Agent
腾讯云AI算力价格上调5% --- 算力成本攀升，企业需重新算账

AI模型

最新大模型的技术演进和能力更新盘点。

阿里发布HappyHorse视频模型

阿里推出最新视频生成模型HappyHorse-1.0，直接在Artificial Analysis的视频榜单上拿下第一。它支持文生视频和图生视频，无论带不带音频表现都很顶，带音频测试甚至追平了字节的Dreamina。

阿里最近在多模态视频生成这块发力很猛，竞争越来越卷了。

🔗 @ArtificialAnlys · 阿里 视频生成 多模态 HappyHorse

Overworld发布实时扩散世界模型

Overworld推出了实时扩散世界模型Waypoint-1.5，专门针对消费级GPU做了优化，主打能在本地机器上交互式运行。这对想在普通电脑上跑复杂世界模型的人来说非常友好。

🔗 @arankomatsuzaki · 世界模型 扩散模型 本地部署

Meta发布原生多模态大模型Muse Spark

Meta发布了原生多模态大模型Muse Spark。Scale AI CEO Alexandr Wang提到，社区用户在使用中发现了它让人惊喜的多模态能力和涌现特性，说明基础模型在处理复杂交互时正解锁出超出官方预期的玩法，很值得开发者去挖掘其在复杂场景下的潜力。

🔗 @AIatMeta · Meta Muse Spark 多模态 涌现能力

GLM-5.1现已接入Droid

智谱的GLM-5.1模型现已接入Droid平台。开发者可以在这个环境里直接调用最新的国产大模型，测试它在各项业务场景里的实际表现，算是一个很实用的替代方案。

🔗 @EnoReyes · GLM-5.1 大模型 Droid

字节跳动发布全双工语音大模型Seeduplex

字节跳动推出了原生全双工语音大模型Seeduplex，能让语音交互和实时对话更加顺畅，支持边听边说和随时打断。

🔗 ai-bot.cn · 字节跳动 语音模型 全双工

新架构大型记忆模型（Large Memory Models）亮相

开发者社区提出了一种叫大型记忆模型（Large Memory Models）的新架构。它的设计思路和主流LLM不太一样，专门用来处理特定的记忆和上下文需求。

🔗 @svpino · 模型架构 大型记忆模型

产品发布

大厂和明星创业公司的AI落地新动作。

Perplexity CEO称AI报税比CPA靠谱

Perplexity CEO发推吐槽，说在处理报税这种麻烦事上，自家的AI有时比专业注册会计师（CPA）还靠谱。虽然有点自夸，但也确实暴露出AI处理复杂结构化规则时的潜力。

🔗 @AravSrinivas · Perplexity AI报税 效率工具

Claude Code上线Monitor工具

Anthropic为Claude Code加了Monitor工具，能创建后台脚本并实时监听外部进程输出（stdout）。一旦后台测试报错，错误信息会流式推到对话里，Claude能马上响应修复，主线程一点不卡。不用再写死循环去轮询，省token又高效。

从被动问答变成事件驱动的主动响应，这才是Agent该有的样子。

🔗 @aigclink / @noahzweben · Claude Code Agent Monitor 开发工具

Seedance 2.0一句话生成视频广告

输入提示词，Seedance 2.0就能在几分钟内生成带音效的高画质视频广告。以前花几万美元、等好几周的视觉特效，现在一句话就能搞定。门槛极低，不用剪辑团队，对独立开发者和小团队跑营销测试非常香。

🔗 @oggii_0 · AI视频 Seedance 广告生成 生产力

即梦推出AI原生动态叙事创作工具Octo

即梦AI上线了协作型叙事工具Octo，支持对话和多模态混合的同屏共创。它能帮创作者从理故事大纲一路做到短片输出，AI变成了能和你一起碰想法的创意合伙人。

从简单的对话框交互深入到工作流，生产力工具的演进路线越来越清晰。

🔗 aibase.com · 即梦 Octo 视频创作 多模态

Claude推出企业级托管Agent服务

Claude面向企业用户推出了托管Agent服务Claude Managed Agents。Anthropic算是正式杀入企业级自动化流程和智能代理托管市场了。

🔗 ai-bot.cn · Claude Agent 企业服务

阿里通义开源全模态知识库RAG框架VimRAG

阿里通义团队开源了全模态知识库RAG框架VimRAG，让开发者能更顺手地搭建支持多模态数据的检索增强应用。

🔗 ai-bot.cn · 阿里通义 RAG 多模态 开源

腾讯推出浏览器AI助手QBotClaw

腾讯发布国内首个浏览器AI辅助工具"龙虾"（QBotClaw），直接把大模型能力塞进浏览器，帮你处理日常网页浏览的各种琐事。

🔗 ai-bot.cn · 腾讯 浏览器插件 AI助手

研究论文

解决Agent评估难题和长视野规划，学术界正在啃硬骨头。

微软发文直击Agent测评痛点

微软新论文指出了Agent基准测试的一个大坑：你怎么确定Agent真的把活干完了？现有的评估体系在验证任务完成度上非常脆弱，导致很多高分其实水分极大。

跑分没输过，落地没赢过，根子就在测评标准不对劲。

🔗 @omarsar0 · 微软 AI Agent 模型测评

4-bit注意力机制导致模型性能下降

虽然FP4硬件已经普及，但研究人员发现把注意力机制降到4-bit会严重拖累模型的生成质量。社区现在正到处找新方案，想真正搞定端到端的FP4高效推理。

硬件到位了，算法还得接着缝缝补补。

🔗 @jeremyphoward · 模型量化 FP4 注意力机制

为啥模型没变大Agent却行了？

过去三年大家都在拼命堆参数，指望大模型记住一切顺便规划任务，现在发现有点碰壁。论文指出，Agent现在能干活，靠的主要是挂"外挂"：加记忆库、技能库、协议层和执行沙箱（像MCP和Claude Code）。这些工程化组件，才是让大模型在业务里落地的关键。

单纯拼参数的阶段暂缓，工程落地迎来了黄金期。

🔗 @lijigang · Agent 大模型 Scaling Law 工程架构

斯坦福开源LLM-as-a-Verifier通用验证框架

斯坦福AI实验室开源了一个大模型通用验证框架LLM-as-a-Verifier。它在Terminal-Bench 2基准测试里拿到了86.4%的SOTA成绩，证明了用大模型去验证代码或终端操作是完全可行的。

🔗 @StanfordAILab · 斯坦福 验证框架 大模型

JEPA世界模型结合分层规划助力机器人长视野任务

Yann LeCun转推表示，把JEPA世界模型和分层规划结合起来，是机器人长视野技术的一大步，很有希望解决机器人执行复杂长期任务时经常翻车的经典问题。

🔗 @ylecun · JEPA 机器人 世界模型

工具推荐

开发者日常必备，让应用接大模型更优雅的工程实践。

硬核科普博客详解大模型量化

开发者samwhoo写了一篇关于大模型量化（LLM quantization）的深度博客。文章把底层的复杂逻辑盘得非常清楚，想搞懂量化原理的开发者千万别错过这份高质量教程。

🔗 @algo_diver · 大模型量化 技术博客 开发者教程

OpenClaw技能库大全开源

一份开源的OpenClaw AI助手技能库整理了超过5200个现成的Skills，可以直接拿来扩展AI助手的能力。不管是处理特定格式数据还是接外部API，基本都能找到现成代码，不用自己重复造轮子。

二次开发门槛大幅降低，建议先Fork留存。

🔗 @tom_doerr · OpenClaw AI技能 开源项目

高精度PDF解析器开源

推荐一个专为AI设计的高精度PDF解析工具。它能把排版混乱的PDF文档清洗成大模型好消化的结构化数据。做过RAG或知识库的都知道解析PDF表格多头疼，这工具能省大麻烦。

RAG系统的上限往往受制于文档解析的下限，好用的解析器绝对是刚需。

🔗 @tom_doerr · PDF解析 RAG 数据清洗

AI-Trader开源交易信号市场

AI-Trader是个很有意思的开源市场平台，里面的各种AI Agent会自己发布交易信号，还会互相辩论。它相当于用一群AI把金融分析师的讨论过程具象化了，给量化交易提供了一个好玩的实验沙盒。

🔗 @hasantoxr · AI Agent 量化交易 开源项目

别让应用直连大模型：加个中间层更灵活

开发者@svpino分享了一个架构经验：千万别让你的应用直接跟大模型对话。在中间加一层中间件，能让应用的灵活性成倍提升，以后换模型或者加业务逻辑会方便很多。

后端开发的经典解耦原则在AI时代一样好使，能省掉后期无数麻烦。

🔗 @svpino · AI架构 工程实践 中间件

行业动态

算力价格与AI行业的宏观趋势观察。

马斯克意外泄露Claude参数规模

马斯克在推特上拿自家的Grok 4.20和竞品对比时，疑似顺手把Anthropic Claude系列的模型规模给透了底。他提到Grok 4.20大概是5000亿参数，顺便带出了其他模型的内部数据。

商战的最高境界，往往是老板亲自发推特爆料。

🔗 @QuixiAI · 马斯克 Claude Grok 大模型参数

OpenAI力挺伊利诺伊州AI免责法案

OpenAI正暗中支持伊利诺伊州的一项AI法案，核心诉求是让AI实验室在模型造成关键损害时能免除部分法律责任。这波操作显然是在为以后的大规模落地和潜在翻车提前买保险。

技术跑太快，法务团队已经在前面帮忙扫雷了。

🔗 @EthanJPerez · OpenAI AI合规 科技政策

DeepSeek"专家模式"被误读

有开发者澄清，很多人误解了DeepSeek的"专家模式"。这其实是设计给API用户保底100%可用性的，因为英文翻译造成了误会，它的完全体要到V4版本才会真正亮相。

🔗 @teortaxesTex · DeepSeek API 大模型落地

Token消耗大比拼：人均每月18亿

SemiAnalysis透露，他们员工现在平均每月要消耗18.6亿个Token，而之前有报道称Meta员工每人每月只消耗7.5亿个。高强度使用AI工具早就是极客团队的日常标配了。

🔗 @dylan522p · Token消耗 AI效率 工作流

多位AI大佬公开泼冷水：Mythos远非AGI

针对最近很火的Mythos模型，Gary Marcus和Yann LeCun等大佬齐泼冷水。他们指出这模型的网络安全测试用例少得可怜，在生物学等领域也没啥实质突破，目前的表现更多是PR包装得好，离真正的AGI差得远。

营销满天飞的时候，听听业内老炮的毒舌点评能让人清醒不少。

🔗 @GaryMarcus · Mythos AGI 模型评估