26-260410 AI 科技日报 (阿里开源视频模型HappyHorse登顶,马斯克疑似泄露Claude参数)
共收录 28 条资讯
今日必看
- 阿里发布HappyHorse视频模型 --- 阿里杀入视频生成前列,音频视频双修
- 微软揭开Agent测评的遮羞布 --- 你怎么证明Agent真的干完活了?
- 马斯克意外泄露Claude参数规模 --- 拿Grok拉踩竞品时不小心爆了料
- Claude Code上线Monitor工具 --- 不用再轮询了,后台进程实时推送
- 为啥模型没变大Agent却行了? --- 靠外挂解决大模型失忆和执行问题
- Seedance 2.0一句话生成视频广告 --- 省下几万块VFX预算
- 即梦推出AI原生动态叙事创作工具Octo --- AI变成"创意合伙人"同屏共创
- 微信公众号重拳打击非真人自动化写作 --- 量产AI水文的公号危险了
- MiniMax发布全模态命令行工具MMX-CLI --- 一行代码原生接入,告别MCP Server
- Claude推出企业级托管Agent服务 --- Claude进军企业Agent托管市场
- 字节发布全双工语音大模型 --- 语音助手能边听边说并支持打断了
- Anthropic推AI代理托管服务 --- 官方下场帮你托管AI Agent
- 腾讯云AI算力价格上调5% --- 算力成本攀升,企业需重新算账
AI模型
最新大模型的技术演进和能力更新盘点。
阿里发布HappyHorse视频模型
阿里推出最新视频生成模型HappyHorse-1.0,直接在Artificial Analysis的视频榜单上拿下第一。它支持文生视频和图生视频,无论带不带音频表现都很顶,带音频测试甚至追平了字节的Dreamina。
阿里最近在多模态视频生成这块发力很猛,竞争越来越卷了。
🔗 @ArtificialAnlys · 阿里 视频生成 多模态 HappyHorse
Overworld发布实时扩散世界模型
Overworld推出了实时扩散世界模型Waypoint-1.5,专门针对消费级GPU做了优化,主打能在本地机器上交互式运行。这对想在普通电脑上跑复杂世界模型的人来说非常友好。
🔗 @arankomatsuzaki · 世界模型 扩散模型 本地部署
Meta发布原生多模态大模型Muse Spark
Meta发布了原生多模态大模型Muse Spark。Scale AI CEO Alexandr Wang提到,社区用户在使用中发现了它让人惊喜的多模态能力和涌现特性,说明基础模型在处理复杂交互时正解锁出超出官方预期的玩法,很值得开发者去挖掘其在复杂场景下的潜力。
🔗 @AIatMeta · Meta Muse Spark 多模态 涌现能力
GLM-5.1现已接入Droid
智谱的GLM-5.1模型现已接入Droid平台。开发者可以在这个环境里直接调用最新的国产大模型,测试它在各项业务场景里的实际表现,算是一个很实用的替代方案。
🔗 @EnoReyes · GLM-5.1 大模型 Droid
字节跳动发布全双工语音大模型Seeduplex
字节跳动推出了原生全双工语音大模型Seeduplex,能让语音交互和实时对话更加顺畅,支持边听边说和随时打断。
🔗 ai-bot.cn · 字节跳动 语音模型 全双工
新架构大型记忆模型(Large Memory Models)亮相
开发者社区提出了一种叫大型记忆模型(Large Memory Models)的新架构。它的设计思路和主流LLM不太一样,专门用来处理特定的记忆和上下文需求。
🔗 @svpino · 模型架构 大型记忆模型
产品发布
大厂和明星创业公司的AI落地新动作。
Perplexity CEO称AI报税比CPA靠谱
Perplexity CEO发推吐槽,说在处理报税这种麻烦事上,自家的AI有时比专业注册会计师(CPA)还靠谱。虽然有点自夸,但也确实暴露出AI处理复杂结构化规则时的潜力。
🔗 @AravSrinivas · Perplexity AI报税 效率工具
Claude Code上线Monitor工具
Anthropic为Claude Code加了Monitor工具,能创建后台脚本并实时监听外部进程输出(stdout)。一旦后台测试报错,错误信息会流式推到对话里,Claude能马上响应修复,主线程一点不卡。不用再写死循环去轮询,省token又高效。
从被动问答变成事件驱动的主动响应,这才是Agent该有的样子。
🔗 @aigclink / @noahzweben · Claude Code Agent Monitor 开发工具
Seedance 2.0一句话生成视频广告
输入提示词,Seedance 2.0就能在几分钟内生成带音效的高画质视频广告。以前花几万美元、等好几周的视觉特效,现在一句话就能搞定。门槛极低,不用剪辑团队,对独立开发者和小团队跑营销测试非常香。
🔗 @oggii_0 · AI视频 Seedance 广告生成 生产力
即梦推出AI原生动态叙事创作工具Octo
即梦AI上线了协作型叙事工具Octo,支持对话和多模态混合的同屏共创。它能帮创作者从理故事大纲一路做到短片输出,AI变成了能和你一起碰想法的创意合伙人。
从简单的对话框交互深入到工作流,生产力工具的演进路线越来越清晰。
🔗 aibase.com · 即梦 Octo 视频创作 多模态
Claude推出企业级托管Agent服务
Claude面向企业用户推出了托管Agent服务Claude Managed Agents。Anthropic算是正式杀入企业级自动化流程和智能代理托管市场了。
🔗 ai-bot.cn · Claude Agent 企业服务
阿里通义开源全模态知识库RAG框架VimRAG
阿里通义团队开源了全模态知识库RAG框架VimRAG,让开发者能更顺手地搭建支持多模态数据的检索增强应用。
🔗 ai-bot.cn · 阿里通义 RAG 多模态 开源
腾讯推出浏览器AI助手QBotClaw
腾讯发布国内首个浏览器AI辅助工具"龙虾"(QBotClaw),直接把大模型能力塞进浏览器,帮你处理日常网页浏览的各种琐事。
🔗 ai-bot.cn · 腾讯 浏览器插件 AI助手
研究论文
解决Agent评估难题和长视野规划,学术界正在啃硬骨头。
微软发文直击Agent测评痛点
微软新论文指出了Agent基准测试的一个大坑:你怎么确定Agent真的把活干完了?现有的评估体系在验证任务完成度上非常脆弱,导致很多高分其实水分极大。
跑分没输过,落地没赢过,根子就在测评标准不对劲。
🔗 @omarsar0 · 微软 AI Agent 模型测评
4-bit注意力机制导致模型性能下降
虽然FP4硬件已经普及,但研究人员发现把注意力机制降到4-bit会严重拖累模型的生成质量。社区现在正到处找新方案,想真正搞定端到端的FP4高效推理。
硬件到位了,算法还得接着缝缝补补。
🔗 @jeremyphoward · 模型量化 FP4 注意力机制
为啥模型没变大Agent却行了?
过去三年大家都在拼命堆参数,指望大模型记住一切顺便规划任务,现在发现有点碰壁。论文指出,Agent现在能干活,靠的主要是挂"外挂":加记忆库、技能库、协议层和执行沙箱(像MCP和Claude Code)。这些工程化组件,才是让大模型在业务里落地的关键。
单纯拼参数的阶段暂缓,工程落地迎来了黄金期。
🔗 @lijigang · Agent 大模型 Scaling Law 工程架构
斯坦福开源LLM-as-a-Verifier通用验证框架
斯坦福AI实验室开源了一个大模型通用验证框架LLM-as-a-Verifier。它在Terminal-Bench 2基准测试里拿到了86.4%的SOTA成绩,证明了用大模型去验证代码或终端操作是完全可行的。
🔗 @StanfordAILab · 斯坦福 验证框架 大模型
JEPA世界模型结合分层规划助力机器人长视野任务
Yann LeCun转推表示,把JEPA世界模型和分层规划结合起来,是机器人长视野技术的一大步,很有希望解决机器人执行复杂长期任务时经常翻车的经典问题。
🔗 @ylecun · JEPA 机器人 世界模型
工具推荐
开发者日常必备,让应用接大模型更优雅的工程实践。
硬核科普博客详解大模型量化
开发者samwhoo写了一篇关于大模型量化(LLM quantization)的深度博客。文章把底层的复杂逻辑盘得非常清楚,想搞懂量化原理的开发者千万别错过这份高质量教程。
🔗 @algo_diver · 大模型量化 技术博客 开发者教程
OpenClaw技能库大全开源
一份开源的OpenClaw AI助手技能库整理了超过5200个现成的Skills,可以直接拿来扩展AI助手的能力。不管是处理特定格式数据还是接外部API,基本都能找到现成代码,不用自己重复造轮子。
二次开发门槛大幅降低,建议先Fork留存。
🔗 @tom_doerr · OpenClaw AI技能 开源项目
高精度PDF解析器开源
推荐一个专为AI设计的高精度PDF解析工具。它能把排版混乱的PDF文档清洗成大模型好消化的结构化数据。做过RAG或知识库的都知道解析PDF表格多头疼,这工具能省大麻烦。
RAG系统的上限往往受制于文档解析的下限,好用的解析器绝对是刚需。
🔗 @tom_doerr · PDF解析 RAG 数据清洗
AI-Trader开源交易信号市场
AI-Trader是个很有意思的开源市场平台,里面的各种AI Agent会自己发布交易信号,还会互相辩论。它相当于用一群AI把金融分析师的讨论过程具象化了,给量化交易提供了一个好玩的实验沙盒。
🔗 @hasantoxr · AI Agent 量化交易 开源项目
别让应用直连大模型:加个中间层更灵活
开发者@svpino分享了一个架构经验:千万别让你的应用直接跟大模型对话。在中间加一层中间件,能让应用的灵活性成倍提升,以后换模型或者加业务逻辑会方便很多。
后端开发的经典解耦原则在AI时代一样好使,能省掉后期无数麻烦。
🔗 @svpino · AI架构 工程实践 中间件
行业动态
算力价格与AI行业的宏观趋势观察。
马斯克意外泄露Claude参数规模
马斯克在推特上拿自家的Grok 4.20和竞品对比时,疑似顺手把Anthropic Claude系列的模型规模给透了底。他提到Grok 4.20大概是5000亿参数,顺便带出了其他模型的内部数据。
商战的最高境界,往往是老板亲自发推特爆料。
🔗 @QuixiAI · 马斯克 Claude Grok 大模型参数
OpenAI力挺伊利诺伊州AI免责法案
OpenAI正暗中支持伊利诺伊州的一项AI法案,核心诉求是让AI实验室在模型造成关键损害时能免除部分法律责任。这波操作显然是在为以后的大规模落地和潜在翻车提前买保险。
技术跑太快,法务团队已经在前面帮忙扫雷了。
🔗 @EthanJPerez · OpenAI AI合规 科技政策
DeepSeek"专家模式"被误读
有开发者澄清,很多人误解了DeepSeek的"专家模式"。这其实是设计给API用户保底100%可用性的,因为英文翻译造成了误会,它的完全体要到V4版本才会真正亮相。
🔗 @teortaxesTex · DeepSeek API 大模型落地
Token消耗大比拼:人均每月18亿
SemiAnalysis透露,他们员工现在平均每月要消耗18.6亿个Token,而之前有报道称Meta员工每人每月只消耗7.5亿个。高强度使用AI工具早就是极客团队的日常标配了。
🔗 @dylan522p · Token消耗 AI效率 工作流
多位AI大佬公开泼冷水:Mythos远非AGI
针对最近很火的Mythos模型,Gary Marcus和Yann LeCun等大佬齐泼冷水。他们指出这模型的网络安全测试用例少得可怜,在生物学等领域也没啥实质突破,目前的表现更多是PR包装得好,离真正的AGI差得远。
营销满天飞的时候,听听业内老炮的毒舌点评能让人清醒不少。
🔗 @GaryMarcus · Mythos AGI 模型评估