26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶,马斯克疑似泄露Claude参数)

26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶,马斯克疑似泄露Claude参数)

共收录 28 条资讯

今日必看

  1. 阿里发布HappyHorse视频模型 --- 阿里杀入视频生成前列,音频视频双修
  2. 微软揭开Agent测评的遮羞布 --- 你怎么证明Agent真的干完活了?
  3. 马斯克意外泄露Claude参数规模 --- 拿Grok拉踩竞品时不小心爆了料
  4. Claude Code上线Monitor工具 --- 不用再轮询了,后台进程实时推送
  5. 为啥模型没变大Agent却行了? --- 靠外挂解决大模型失忆和执行问题
  6. Seedance 2.0一句话生成视频广告 --- 省下几万块VFX预算
  7. 即梦推出AI原生动态叙事创作工具Octo --- AI变成"创意合伙人"同屏共创
  8. 微信公众号重拳打击非真人自动化写作 --- 量产AI水文的公号危险了
  9. MiniMax发布全模态命令行工具MMX-CLI --- 一行代码原生接入,告别MCP Server
  10. Claude推出企业级托管Agent服务 --- Claude进军企业Agent托管市场
  11. 字节发布全双工语音大模型 --- 语音助手能边听边说并支持打断了
  12. Anthropic推AI代理托管服务 --- 官方下场帮你托管AI Agent
  13. 腾讯云AI算力价格上调5% --- 算力成本攀升,企业需重新算账

AI模型

最新大模型的技术演进和能力更新盘点。

阿里发布HappyHorse视频模型

阿里推出最新视频生成模型HappyHorse-1.0,直接在Artificial Analysis的视频榜单上拿下第一。它支持文生视频和图生视频,无论带不带音频表现都很顶,带音频测试甚至追平了字节的Dreamina。

阿里最近在多模态视频生成这块发力很猛,竞争越来越卷了。

🔗 @ArtificialAnlys · 阿里 视频生成 多模态 HappyHorse

Overworld发布实时扩散世界模型

Overworld推出了实时扩散世界模型Waypoint-1.5,专门针对消费级GPU做了优化,主打能在本地机器上交互式运行。这对想在普通电脑上跑复杂世界模型的人来说非常友好。

🔗 @arankomatsuzaki · 世界模型 扩散模型 本地部署

Meta发布原生多模态大模型Muse Spark

Meta发布了原生多模态大模型Muse Spark。Scale AI CEO Alexandr Wang提到,社区用户在使用中发现了它让人惊喜的多模态能力和涌现特性,说明基础模型在处理复杂交互时正解锁出超出官方预期的玩法,很值得开发者去挖掘其在复杂场景下的潜力。

🔗 @AIatMeta · Meta Muse Spark 多模态 涌现能力

GLM-5.1现已接入Droid

智谱的GLM-5.1模型现已接入Droid平台。开发者可以在这个环境里直接调用最新的国产大模型,测试它在各项业务场景里的实际表现,算是一个很实用的替代方案。

🔗 @EnoReyes · GLM-5.1 大模型 Droid

字节跳动发布全双工语音大模型Seeduplex

字节跳动推出了原生全双工语音大模型Seeduplex,能让语音交互和实时对话更加顺畅,支持边听边说和随时打断。

🔗 ai-bot.cn · 字节跳动 语音模型 全双工

新架构大型记忆模型(Large Memory Models)亮相

开发者社区提出了一种叫大型记忆模型(Large Memory Models)的新架构。它的设计思路和主流LLM不太一样,专门用来处理特定的记忆和上下文需求。

🔗 @svpino · 模型架构 大型记忆模型

产品发布

大厂和明星创业公司的AI落地新动作。

Perplexity CEO称AI报税比CPA靠谱

Perplexity CEO发推吐槽,说在处理报税这种麻烦事上,自家的AI有时比专业注册会计师(CPA)还靠谱。虽然有点自夸,但也确实暴露出AI处理复杂结构化规则时的潜力。

🔗 @AravSrinivas · Perplexity AI报税 效率工具

Claude Code上线Monitor工具

Anthropic为Claude Code加了Monitor工具,能创建后台脚本并实时监听外部进程输出(stdout)。一旦后台测试报错,错误信息会流式推到对话里,Claude能马上响应修复,主线程一点不卡。不用再写死循环去轮询,省token又高效。

从被动问答变成事件驱动的主动响应,这才是Agent该有的样子。

🔗 @aigclink / @noahzweben · Claude Code Agent Monitor 开发工具

Seedance 2.0一句话生成视频广告

输入提示词,Seedance 2.0就能在几分钟内生成带音效的高画质视频广告。以前花几万美元、等好几周的视觉特效,现在一句话就能搞定。门槛极低,不用剪辑团队,对独立开发者和小团队跑营销测试非常香。

🔗 @oggii_0 · AI视频 Seedance 广告生成 生产力

即梦推出AI原生动态叙事创作工具Octo

即梦AI上线了协作型叙事工具Octo,支持对话和多模态混合的同屏共创。它能帮创作者从理故事大纲一路做到短片输出,AI变成了能和你一起碰想法的创意合伙人。

从简单的对话框交互深入到工作流,生产力工具的演进路线越来越清晰。

🔗 aibase.com · 即梦 Octo 视频创作 多模态

Claude推出企业级托管Agent服务

Claude面向企业用户推出了托管Agent服务Claude Managed Agents。Anthropic算是正式杀入企业级自动化流程和智能代理托管市场了。

🔗 ai-bot.cn · Claude Agent 企业服务

阿里通义开源全模态知识库RAG框架VimRAG

阿里通义团队开源了全模态知识库RAG框架VimRAG,让开发者能更顺手地搭建支持多模态数据的检索增强应用。

🔗 ai-bot.cn · 阿里通义 RAG 多模态 开源

腾讯推出浏览器AI助手QBotClaw

腾讯发布国内首个浏览器AI辅助工具"龙虾"(QBotClaw),直接把大模型能力塞进浏览器,帮你处理日常网页浏览的各种琐事。

🔗 ai-bot.cn · 腾讯 浏览器插件 AI助手

研究论文

解决Agent评估难题和长视野规划,学术界正在啃硬骨头。

微软发文直击Agent测评痛点

微软新论文指出了Agent基准测试的一个大坑:你怎么确定Agent真的把活干完了?现有的评估体系在验证任务完成度上非常脆弱,导致很多高分其实水分极大。

跑分没输过,落地没赢过,根子就在测评标准不对劲。

🔗 @omarsar0 · 微软 AI Agent 模型测评

4-bit注意力机制导致模型性能下降

虽然FP4硬件已经普及,但研究人员发现把注意力机制降到4-bit会严重拖累模型的生成质量。社区现在正到处找新方案,想真正搞定端到端的FP4高效推理。

硬件到位了,算法还得接着缝缝补补。

🔗 @jeremyphoward · 模型量化 FP4 注意力机制

为啥模型没变大Agent却行了?

过去三年大家都在拼命堆参数,指望大模型记住一切顺便规划任务,现在发现有点碰壁。论文指出,Agent现在能干活,靠的主要是挂"外挂":加记忆库、技能库、协议层和执行沙箱(像MCP和Claude Code)。这些工程化组件,才是让大模型在业务里落地的关键。

单纯拼参数的阶段暂缓,工程落地迎来了黄金期。

🔗 @lijigang · Agent 大模型 Scaling Law 工程架构

斯坦福开源LLM-as-a-Verifier通用验证框架

斯坦福AI实验室开源了一个大模型通用验证框架LLM-as-a-Verifier。它在Terminal-Bench 2基准测试里拿到了86.4%的SOTA成绩,证明了用大模型去验证代码或终端操作是完全可行的。

🔗 @StanfordAILab · 斯坦福 验证框架 大模型

JEPA世界模型结合分层规划助力机器人长视野任务

Yann LeCun转推表示,把JEPA世界模型和分层规划结合起来,是机器人长视野技术的一大步,很有希望解决机器人执行复杂长期任务时经常翻车的经典问题。

🔗 @ylecun · JEPA 机器人 世界模型

工具推荐

开发者日常必备,让应用接大模型更优雅的工程实践。

硬核科普博客详解大模型量化

开发者samwhoo写了一篇关于大模型量化(LLM quantization)的深度博客。文章把底层的复杂逻辑盘得非常清楚,想搞懂量化原理的开发者千万别错过这份高质量教程。

🔗 @algo_diver · 大模型量化 技术博客 开发者教程

OpenClaw技能库大全开源

一份开源的OpenClaw AI助手技能库整理了超过5200个现成的Skills,可以直接拿来扩展AI助手的能力。不管是处理特定格式数据还是接外部API,基本都能找到现成代码,不用自己重复造轮子。

二次开发门槛大幅降低,建议先Fork留存。

🔗 @tom_doerr · OpenClaw AI技能 开源项目

高精度PDF解析器开源

推荐一个专为AI设计的高精度PDF解析工具。它能把排版混乱的PDF文档清洗成大模型好消化的结构化数据。做过RAG或知识库的都知道解析PDF表格多头疼,这工具能省大麻烦。

RAG系统的上限往往受制于文档解析的下限,好用的解析器绝对是刚需。

🔗 @tom_doerr · PDF解析 RAG 数据清洗

AI-Trader开源交易信号市场

AI-Trader是个很有意思的开源市场平台,里面的各种AI Agent会自己发布交易信号,还会互相辩论。它相当于用一群AI把金融分析师的讨论过程具象化了,给量化交易提供了一个好玩的实验沙盒。

🔗 @hasantoxr · AI Agent 量化交易 开源项目

别让应用直连大模型:加个中间层更灵活

开发者@svpino分享了一个架构经验:千万别让你的应用直接跟大模型对话。在中间加一层中间件,能让应用的灵活性成倍提升,以后换模型或者加业务逻辑会方便很多。

后端开发的经典解耦原则在AI时代一样好使,能省掉后期无数麻烦。

🔗 @svpino · AI架构 工程实践 中间件

行业动态

算力价格与AI行业的宏观趋势观察。

马斯克意外泄露Claude参数规模

马斯克在推特上拿自家的Grok 4.20和竞品对比时,疑似顺手把Anthropic Claude系列的模型规模给透了底。他提到Grok 4.20大概是5000亿参数,顺便带出了其他模型的内部数据。

商战的最高境界,往往是老板亲自发推特爆料。

🔗 @QuixiAI · 马斯克 Claude Grok 大模型参数

OpenAI力挺伊利诺伊州AI免责法案

OpenAI正暗中支持伊利诺伊州的一项AI法案,核心诉求是让AI实验室在模型造成关键损害时能免除部分法律责任。这波操作显然是在为以后的大规模落地和潜在翻车提前买保险。

技术跑太快,法务团队已经在前面帮忙扫雷了。

🔗 @EthanJPerez · OpenAI AI合规 科技政策

DeepSeek"专家模式"被误读

有开发者澄清,很多人误解了DeepSeek的"专家模式"。这其实是设计给API用户保底100%可用性的,因为英文翻译造成了误会,它的完全体要到V4版本才会真正亮相。

🔗 @teortaxesTex · DeepSeek API 大模型落地

Token消耗大比拼:人均每月18亿

SemiAnalysis透露,他们员工现在平均每月要消耗18.6亿个Token,而之前有报道称Meta员工每人每月只消耗7.5亿个。高强度使用AI工具早就是极客团队的日常标配了。

🔗 @dylan522p · Token消耗 AI效率 工作流

多位AI大佬公开泼冷水:Mythos远非AGI

针对最近很火的Mythos模型,Gary Marcus和Yann LeCun等大佬齐泼冷水。他们指出这模型的网络安全测试用例少得可怜,在生物学等领域也没啥实质突破,目前的表现更多是PR包装得好,离真正的AGI差得远。

营销满天飞的时候,听听业内老炮的毒舌点评能让人清醒不少。

🔗 @GaryMarcus · Mythos AGI 模型评估


相关推荐
火山引擎开发者社区16 小时前
AI 重构测试行业!火山引擎云手机应用助手重磅来袭!
人工智能
BizViewStudio16 小时前
小程序泛在化时代:2026 年跨平台开发技术选型指南
大数据·网络·人工智能·小程序·媒体
火山引擎开发者社区16 小时前
veStack × DeepSeek-V4:从模型到企业级 Agent,一步到位
人工智能
911hzh17 小时前
Flutter 音视频通话集成实战:WebSocket 做信令,WebRTC 传音视频,附详细事件时序图
websocket·flutter·音视频
大龄程序员狗哥1 天前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer1 天前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能1 天前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0951 天前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
Hommy881 天前
【开源剪映小助手】API 接口文档
开源·github·aigc·视频剪辑自动化·剪映api
墨染天姬1 天前
【AI】Hermes的GEPA算法
人工智能·算法