26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶,马斯克疑似泄露Claude参数)

26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶,马斯克疑似泄露Claude参数)

共收录 28 条资讯

今日必看

  1. 阿里发布HappyHorse视频模型 --- 阿里杀入视频生成前列,音频视频双修
  2. 微软揭开Agent测评的遮羞布 --- 你怎么证明Agent真的干完活了?
  3. 马斯克意外泄露Claude参数规模 --- 拿Grok拉踩竞品时不小心爆了料
  4. Claude Code上线Monitor工具 --- 不用再轮询了,后台进程实时推送
  5. 为啥模型没变大Agent却行了? --- 靠外挂解决大模型失忆和执行问题
  6. Seedance 2.0一句话生成视频广告 --- 省下几万块VFX预算
  7. 即梦推出AI原生动态叙事创作工具Octo --- AI变成"创意合伙人"同屏共创
  8. 微信公众号重拳打击非真人自动化写作 --- 量产AI水文的公号危险了
  9. MiniMax发布全模态命令行工具MMX-CLI --- 一行代码原生接入,告别MCP Server
  10. Claude推出企业级托管Agent服务 --- Claude进军企业Agent托管市场
  11. 字节发布全双工语音大模型 --- 语音助手能边听边说并支持打断了
  12. Anthropic推AI代理托管服务 --- 官方下场帮你托管AI Agent
  13. 腾讯云AI算力价格上调5% --- 算力成本攀升,企业需重新算账

AI模型

最新大模型的技术演进和能力更新盘点。

阿里发布HappyHorse视频模型

阿里推出最新视频生成模型HappyHorse-1.0,直接在Artificial Analysis的视频榜单上拿下第一。它支持文生视频和图生视频,无论带不带音频表现都很顶,带音频测试甚至追平了字节的Dreamina。

阿里最近在多模态视频生成这块发力很猛,竞争越来越卷了。

🔗 @ArtificialAnlys · 阿里 视频生成 多模态 HappyHorse

Overworld发布实时扩散世界模型

Overworld推出了实时扩散世界模型Waypoint-1.5,专门针对消费级GPU做了优化,主打能在本地机器上交互式运行。这对想在普通电脑上跑复杂世界模型的人来说非常友好。

🔗 @arankomatsuzaki · 世界模型 扩散模型 本地部署

Meta发布原生多模态大模型Muse Spark

Meta发布了原生多模态大模型Muse Spark。Scale AI CEO Alexandr Wang提到,社区用户在使用中发现了它让人惊喜的多模态能力和涌现特性,说明基础模型在处理复杂交互时正解锁出超出官方预期的玩法,很值得开发者去挖掘其在复杂场景下的潜力。

🔗 @AIatMeta · Meta Muse Spark 多模态 涌现能力

GLM-5.1现已接入Droid

智谱的GLM-5.1模型现已接入Droid平台。开发者可以在这个环境里直接调用最新的国产大模型,测试它在各项业务场景里的实际表现,算是一个很实用的替代方案。

🔗 @EnoReyes · GLM-5.1 大模型 Droid

字节跳动发布全双工语音大模型Seeduplex

字节跳动推出了原生全双工语音大模型Seeduplex,能让语音交互和实时对话更加顺畅,支持边听边说和随时打断。

🔗 ai-bot.cn · 字节跳动 语音模型 全双工

新架构大型记忆模型(Large Memory Models)亮相

开发者社区提出了一种叫大型记忆模型(Large Memory Models)的新架构。它的设计思路和主流LLM不太一样,专门用来处理特定的记忆和上下文需求。

🔗 @svpino · 模型架构 大型记忆模型

产品发布

大厂和明星创业公司的AI落地新动作。

Perplexity CEO称AI报税比CPA靠谱

Perplexity CEO发推吐槽,说在处理报税这种麻烦事上,自家的AI有时比专业注册会计师(CPA)还靠谱。虽然有点自夸,但也确实暴露出AI处理复杂结构化规则时的潜力。

🔗 @AravSrinivas · Perplexity AI报税 效率工具

Claude Code上线Monitor工具

Anthropic为Claude Code加了Monitor工具,能创建后台脚本并实时监听外部进程输出(stdout)。一旦后台测试报错,错误信息会流式推到对话里,Claude能马上响应修复,主线程一点不卡。不用再写死循环去轮询,省token又高效。

从被动问答变成事件驱动的主动响应,这才是Agent该有的样子。

🔗 @aigclink / @noahzweben · Claude Code Agent Monitor 开发工具

Seedance 2.0一句话生成视频广告

输入提示词,Seedance 2.0就能在几分钟内生成带音效的高画质视频广告。以前花几万美元、等好几周的视觉特效,现在一句话就能搞定。门槛极低,不用剪辑团队,对独立开发者和小团队跑营销测试非常香。

🔗 @oggii_0 · AI视频 Seedance 广告生成 生产力

即梦推出AI原生动态叙事创作工具Octo

即梦AI上线了协作型叙事工具Octo,支持对话和多模态混合的同屏共创。它能帮创作者从理故事大纲一路做到短片输出,AI变成了能和你一起碰想法的创意合伙人。

从简单的对话框交互深入到工作流,生产力工具的演进路线越来越清晰。

🔗 aibase.com · 即梦 Octo 视频创作 多模态

Claude推出企业级托管Agent服务

Claude面向企业用户推出了托管Agent服务Claude Managed Agents。Anthropic算是正式杀入企业级自动化流程和智能代理托管市场了。

🔗 ai-bot.cn · Claude Agent 企业服务

阿里通义开源全模态知识库RAG框架VimRAG

阿里通义团队开源了全模态知识库RAG框架VimRAG,让开发者能更顺手地搭建支持多模态数据的检索增强应用。

🔗 ai-bot.cn · 阿里通义 RAG 多模态 开源

腾讯推出浏览器AI助手QBotClaw

腾讯发布国内首个浏览器AI辅助工具"龙虾"(QBotClaw),直接把大模型能力塞进浏览器,帮你处理日常网页浏览的各种琐事。

🔗 ai-bot.cn · 腾讯 浏览器插件 AI助手

研究论文

解决Agent评估难题和长视野规划,学术界正在啃硬骨头。

微软发文直击Agent测评痛点

微软新论文指出了Agent基准测试的一个大坑:你怎么确定Agent真的把活干完了?现有的评估体系在验证任务完成度上非常脆弱,导致很多高分其实水分极大。

跑分没输过,落地没赢过,根子就在测评标准不对劲。

🔗 @omarsar0 · 微软 AI Agent 模型测评

4-bit注意力机制导致模型性能下降

虽然FP4硬件已经普及,但研究人员发现把注意力机制降到4-bit会严重拖累模型的生成质量。社区现在正到处找新方案,想真正搞定端到端的FP4高效推理。

硬件到位了,算法还得接着缝缝补补。

🔗 @jeremyphoward · 模型量化 FP4 注意力机制

为啥模型没变大Agent却行了?

过去三年大家都在拼命堆参数,指望大模型记住一切顺便规划任务,现在发现有点碰壁。论文指出,Agent现在能干活,靠的主要是挂"外挂":加记忆库、技能库、协议层和执行沙箱(像MCP和Claude Code)。这些工程化组件,才是让大模型在业务里落地的关键。

单纯拼参数的阶段暂缓,工程落地迎来了黄金期。

🔗 @lijigang · Agent 大模型 Scaling Law 工程架构

斯坦福开源LLM-as-a-Verifier通用验证框架

斯坦福AI实验室开源了一个大模型通用验证框架LLM-as-a-Verifier。它在Terminal-Bench 2基准测试里拿到了86.4%的SOTA成绩,证明了用大模型去验证代码或终端操作是完全可行的。

🔗 @StanfordAILab · 斯坦福 验证框架 大模型

JEPA世界模型结合分层规划助力机器人长视野任务

Yann LeCun转推表示,把JEPA世界模型和分层规划结合起来,是机器人长视野技术的一大步,很有希望解决机器人执行复杂长期任务时经常翻车的经典问题。

🔗 @ylecun · JEPA 机器人 世界模型

工具推荐

开发者日常必备,让应用接大模型更优雅的工程实践。

硬核科普博客详解大模型量化

开发者samwhoo写了一篇关于大模型量化(LLM quantization)的深度博客。文章把底层的复杂逻辑盘得非常清楚,想搞懂量化原理的开发者千万别错过这份高质量教程。

🔗 @algo_diver · 大模型量化 技术博客 开发者教程

OpenClaw技能库大全开源

一份开源的OpenClaw AI助手技能库整理了超过5200个现成的Skills,可以直接拿来扩展AI助手的能力。不管是处理特定格式数据还是接外部API,基本都能找到现成代码,不用自己重复造轮子。

二次开发门槛大幅降低,建议先Fork留存。

🔗 @tom_doerr · OpenClaw AI技能 开源项目

高精度PDF解析器开源

推荐一个专为AI设计的高精度PDF解析工具。它能把排版混乱的PDF文档清洗成大模型好消化的结构化数据。做过RAG或知识库的都知道解析PDF表格多头疼,这工具能省大麻烦。

RAG系统的上限往往受制于文档解析的下限,好用的解析器绝对是刚需。

🔗 @tom_doerr · PDF解析 RAG 数据清洗

AI-Trader开源交易信号市场

AI-Trader是个很有意思的开源市场平台,里面的各种AI Agent会自己发布交易信号,还会互相辩论。它相当于用一群AI把金融分析师的讨论过程具象化了,给量化交易提供了一个好玩的实验沙盒。

🔗 @hasantoxr · AI Agent 量化交易 开源项目

别让应用直连大模型:加个中间层更灵活

开发者@svpino分享了一个架构经验:千万别让你的应用直接跟大模型对话。在中间加一层中间件,能让应用的灵活性成倍提升,以后换模型或者加业务逻辑会方便很多。

后端开发的经典解耦原则在AI时代一样好使,能省掉后期无数麻烦。

🔗 @svpino · AI架构 工程实践 中间件

行业动态

算力价格与AI行业的宏观趋势观察。

马斯克意外泄露Claude参数规模

马斯克在推特上拿自家的Grok 4.20和竞品对比时,疑似顺手把Anthropic Claude系列的模型规模给透了底。他提到Grok 4.20大概是5000亿参数,顺便带出了其他模型的内部数据。

商战的最高境界,往往是老板亲自发推特爆料。

🔗 @QuixiAI · 马斯克 Claude Grok 大模型参数

OpenAI力挺伊利诺伊州AI免责法案

OpenAI正暗中支持伊利诺伊州的一项AI法案,核心诉求是让AI实验室在模型造成关键损害时能免除部分法律责任。这波操作显然是在为以后的大规模落地和潜在翻车提前买保险。

技术跑太快,法务团队已经在前面帮忙扫雷了。

🔗 @EthanJPerez · OpenAI AI合规 科技政策

DeepSeek"专家模式"被误读

有开发者澄清,很多人误解了DeepSeek的"专家模式"。这其实是设计给API用户保底100%可用性的,因为英文翻译造成了误会,它的完全体要到V4版本才会真正亮相。

🔗 @teortaxesTex · DeepSeek API 大模型落地

Token消耗大比拼:人均每月18亿

SemiAnalysis透露,他们员工现在平均每月要消耗18.6亿个Token,而之前有报道称Meta员工每人每月只消耗7.5亿个。高强度使用AI工具早就是极客团队的日常标配了。

🔗 @dylan522p · Token消耗 AI效率 工作流

多位AI大佬公开泼冷水:Mythos远非AGI

针对最近很火的Mythos模型,Gary Marcus和Yann LeCun等大佬齐泼冷水。他们指出这模型的网络安全测试用例少得可怜,在生物学等领域也没啥实质突破,目前的表现更多是PR包装得好,离真正的AGI差得远。

营销满天飞的时候,听听业内老炮的毒舌点评能让人清醒不少。

🔗 @GaryMarcus · Mythos AGI 模型评估


相关推荐
jedi-knight2 小时前
AGI时代下的青年教师与学术民主化
人工智能·python·agi
ManageEngineITSM2 小时前
IT服务台为什么越忙越低效?
人工智能·自动化·excel·itsm·工单系统
程砚成2 小时前
小微美业的数字化突围:一款轻量工具,如何让小店告别经营焦虑?
人工智能
IT_陈寒2 小时前
为什么我的Vite热更新老是重新加载整个页面?
前端·人工智能·后端
zhaoshuzhaoshu2 小时前
人工智能(AI)发展史:详细里程碑
人工智能·职场和发展
Luke~2 小时前
阿里云计算巢已上架!3分钟部署 Loki AI 事故分析引擎,SRE 复盘时间直接砍掉 80%
人工智能·阿里云·云计算·loki·devops·aiops·sre
weixin_156241575762 小时前
基于YOLOv8深度学习花卉识别系统摄像头实时图片文件夹多图片等另有其他的识别系统可二开
大数据·人工智能·python·深度学习·yolo
QQ676580082 小时前
AI赋能轨道交通智能巡检 轨道交通故障检测 轨道缺陷断裂检测 轨道裂纹识别 鱼尾板故障识别 轨道巡检缺陷数据集深度学习yolo第10303期
人工智能·深度学习·yolo·智能巡检·轨道交通故障检测·鱼尾板故障识别·轨道缺陷断裂检测
小陈工2 小时前
2026年4月7日技术资讯洞察:下一代数据库融合、AI基础设施竞赛与异步编程实战
开发语言·前端·数据库·人工智能·python