2026年6月AI生产力再探再报：又出什么新东西了？

前言

每个月都像在追一部永远不停更的连续剧，剧名叫「AI圈又出什么新东西了」。

上个月还在吹的模型这个月就成了上一代，上周刚学会的框架这周就被官宣弃用，总之还是：工具不在多，不在新，在能用。

下面开始，各就各位。

一、工具尝鲜快报

好玩的，初探感觉不错的工具。

模型篇

1. 海的那边

Anthropic Claude Mythos/Fable 5：还说啥呢，因为过于强大都被川普封禁了，管他，反正上线了我也用不上。

OpenAI GPT-5.6：GPT-5.6 Sol是旗舰，负责「硬骨头」（编程、生物信息、网络安全）；GPT-5.6 Terra 干「日常工作」，主打性价比，性能据说可以对标GPT-5.5但便宜一半；GPT-5.6 Luna是「价格敏感型用户」的福音，最便宜。也是被A社的神话寓言逼急了，搞起了日月大地，但被曝跑分时作弊。变强了，却没有那么强。

Agnes 全家桶（Agnes-2.0-Flash / Agnes-Image-2.1-Flash / Agnes-Video-2.0）：Agnes AI 是新加坡 Sapiens AI 公司的「全模态 AI 实验室」，6月起向开发者开放了无限期免费、不限量的文本、图像、视频 AI，不是、哥们？全模态免费 API，算力从哪来的呀！先白嫖用了再说。

Gemma 4 12B：谷歌开源的多模态模型，之前就开源了多个型号的，这次是12B参数，支持图像和音频直接输入，无需独立编码器，Apache 2.0协议，256K上下文。阿美莉卡的源神大旗由谷歌扛起了。

Qwythos-9B：由独立 AI 实验室 Empero 推出的小模型，从名字可以看出是 Qwen 和 Mythos的合体，仅9B参数，却吸收了 Claude Mythos 和 Fable 的高质量推理轨迹，支持 1M 的超长上下文，最低 4GB 显存即可本地运行，证明了后训练技术可以让小模型拥有大模型的思维深度。

gemma-4-12B-coder-fable5-composer2.5：更震撼的来了，个人开发者 luyuxin （在美研究生）因学业太无聊而做的试验，基于 gemma4 蒸的 Fable+Opus 4.8，杀进了 Hugging Face 开源模型榜，主打 Agentic 的 V2 和主打 Coder 的 V1 版分别位列第三、第四。顺便一提，第一、第二分别是智谱GLM-5.2和百度Unlimited-OCR。

2. 挑战者们

GLM 5.2：智谱再次憋了个大招，1M上下文，MIT协议完全开源，Agentic Coding 对标 Claude Opus 4.8，国内 Coding 模型的新标杆。

Qwen3.7-Plus：阿里的多模态交互混合智能体模型，统一视觉与语言能力，支持GUI操作、代码生成、多模态推理和真实世界感知。

Qwen-AgentWorld：业内首个原生语言世界模型（LWM），一个内置「世界模拟器」的大模型，能在脑子里先模拟环境反馈，再决定怎么行动。在概念上是很有趣的方向，但实际表现，还是得让子弹飞一会。

WeLM：微信团队自研的大语言模型，不算上新，但随着微信AI助手「小微」而再次浮出水面。WeLM 作为小微的幕后核心大脑，完成大部分操作，部分复杂问答也会借助 DeepSeek 配合，属于「自研+外援」的混合策略。这步棋下得很大，目前还在灰度测试中。

豆包Seed 2.1 Pro：不来点硬货怎么对得起收费模式，感兴趣可以在豆包客户端的任务模式中体验。

Kimi K2.7 Code：月之暗面的编程专用模型，相比 K2.6 在长上下文编程场景上提升明显，改善了过度思考的毛病，配合 AI CLI 工具 Kimi Code，似乎可以作为 Claude Code + Opus 的易用替代。

3. 视觉组

PP-OCRv6：百度飞桨PaddleOCR的第六代文本检测识别模型，提供Tiny、Small、Medium三档，从浏览器到嵌入式到服务器全覆盖，支持50种语言。实测比之前的飞桨模型好用多了，让 AI 配置环境没有那么奇奇怪怪的问题了。

Unlimited-OCR：百度开源的 OCR 模型，基于 DeepSeek-OCR 2 架构（此模型正是该团队研究员跳槽到百度后的新作），采用 R-SWA 注意力机制，支持长文档OCR，MIT许可证。和 PP-OCRv6 的定位不同，Unlimited-OCR 更偏向「长文档」场景，有空再深入对比一下两者。

LLaVA-OneVision-2.0：一款面向下一代感知智能的视觉语言大模型，利用视频Codec流和自研OneVision-Encoder实现跨帧、跨事件的增量观测和连续证据流建模。在视频理解、空间推理和目标追踪等任务中具有应用潜力。虽然名字长得像密码，但技术方向很清晰，让AI不仅能「看懂」单帧图片，还能「看懂」视频里的时空关系。

4. 图像组

Ideogram4：Ideogram终于开源了，而且是从头训练、非基于现有模型微调的9.3B参数模型。文本渲染能力业界领先，支持JSON提示接口、边界框布局、调色板控制，原生2K分辨率。

Boogu-Image 0.1：统一图像生成与编辑模型家族，支持文生图、指令式编辑和中英双语文本渲染。Boogu-Image-0.1-Base负责超密集文本渲染和下游微调，Boogu-Image-0.1-Edit负责指令式编辑和跨风格迁移，Boogu-Image-0.1-Turbo是蒸馏版3-4步出图。

Krea2：开源发布、磁力链下载这很极客,12B参数，人像生成强悍，据说可以把 Boogu-Image 按在地上暴打。缺点是中文渲染不行，信息图密集文字会崩。但人像、场景、插画类生成质量很顶。

Bonsai Image：PrismML公司发布的轻量级模型，基于FLUX.2 Klein 4B架构，通过1-bit或三进制量化压缩，可在本地设备运行。配套还有iOS应用Bonsai Studio，可离线生图，这是「端侧AI」趋势的典型代表。

JoyAI-Image-Edit：京东开源的一体化图像模型，把空间智能融入模型架构底层，支持物体移动、旋转和相机控制等空间编辑能力。

除了这些还屯了好多想测的开源模型，得尽快肝出来= A =。

Seedream 5.0 Pro：字节的图像生成模型，支持交互式精准编辑、多图层分离、高密度信息呈现，支持10余种语言。国内的生图，确实还是豆包最强。

MAI Image 2.5：微软自家的图像生成模型，进入PowerPoint，后续会扩展到OneDrive和Foundry。微软的打法很清晰：模型不单独卖，而是塞进你天天用的Office里，让你在写PPT的时候顺手生成配图。

5. 视频组

Seedance 2.5：字节视频生成模型，支持最长30秒视频、50个全模态素材联合输入，还有局部视频编辑能力。50个参考？！SD2.0还没玩明白呢，世上还有谁能动摇2.0的地位吗，哦，是2.5啊。

**DreamX-World **：基于 Wan2.2-TI2V-5B 构建的长时程自回归视频模型，支持根据图像+文本+相机动作指令生成视频，分块因果自回归推理+KV缓存，这个系列的技术路线很硬核，但长视频生成目前仍是能跑但不好用的阶段，对硬件要求也很高。

JoyAI-Echo：京东开源的长音视频生成框架，支持长达5分钟的跨镜头音视频双重一致、非线性剪辑与局部重绘、流式实时超分，最高输出1472×2560分辨率。这是目前开源视频生成里的「时长天花板」。

Grok Imagine Video 1.5：xAI从预览转正，全面可用。音频与语音更清晰、嘴型同步更好、运动物理更连贯，谁才是真正的快乐马，我不说。

SCAIL-2：智谱联合清华大学开源的影视级角色动画框架第二代，基于DiT架构，端到端训练直接实现动画迁移，无需姿态估计中间环节。能驱动人体、动物、手绘角色，支持多人物交互。

Bernini：字节开源的多模态统一视频模型，采用「大模型负责语义理解与规划，diffusion负责视觉渲染」的分工架构。覆盖了参考生成、视频编辑等多种任务。视频模型中，在闭源上能打败字节的是字节，开源上也是。

6. 语音组

MOSS-TTS-Local-Transformer-v1.5：开源TTS模型，支持48kHz立体声、零样本声音克隆、最长10分钟长文本合成，核心采用Qwen3-4B骨干+约2B参数的音频编解码器。SGLang-Omni三阶段流水线部署。

MAI Transcribe 1.5：微软的转录模型，支持43种语言，速度达到竞品5倍。正在往GitHub、Teams、Copilot、Dynamics 365里塞。微软在把AI塞进每一个Office按钮这件事上，开始加速了。

MAI Voice 2：同样是微软推出，支持15种语言的语音模型，可通过短样本适配声音，内置防滥用保护。

这两个月开始涉猎 AI 短剧，所以也开始关注更多样的模型了。

应用篇

1. AI Coding

MiMo Code：小米开源的终端AI编程助手，基于OpenCode二次开发，MIT协议。它的特点是「持久记忆系统+无限上下文」，还有独创的Compose模式和Dream记忆沉淀系统，支持语音输入。

Kimi Code：同上类似，非开源，各家做这种都是对标 Claude Code 去的。Kimi 这款的特点是

Qoder 新命令：阿里推出的AI编程IDE。新增/run-skill-generator、/run和/verify三个命令，实现知识录制、快速观察和闭环验证。另外，此前 Mac 版 QoderWork 上线的 Computer Use 功能，Windows 版也有了，可自动执行桌面任务如启动应用、点击控件、输入文本等。

Ponytail ：AI Agent插件，通过过滤链减少过度工程，兼容13个主流AI Agent，可减少代码量80-94%，提升速度3-6倍。

https://github.com/DietrichGebert/ponytail

agentsview ：本地Web应用，自动扫描并统计Claude Code、Codex、Cursor等20多种AI编码Agent的会话记录，支持搜索、浏览、分析和统计token消耗与费用。如果你同时在用三四个AI编程工具，这个工具就是你的「记账本+监控器」。

https://github.com/kenn-io/agentsview

SkillSpector ：NVIDIA开源的静态分析扫描器，检测AI Skills中的16大类64种漏洞模式，包括恶意命令注入、prompt注入、凭证窃取、数据外泄等。

https://github.com/NVIDIA/SkillSpector

CLI-Anything ：香港大学开源的工具，能把任何有源码的软件自动生成命令行接口，让AI Agent直接操控专业软件。这个思路很妙，不是让软件适配AI，而是让AI能适配任何软件。如果你的工作流里有很多专业工具（比如MATLAB、AutoCAD、各种数据分析软件），这个工具可以大幅降低AI接入的门槛。

https://github.com/HKUDS/CLI-Anything

React Bits ：开源 React 动画组件库，130+视觉冲击力组件，是前端开发者的「动画弹药库」，需要炫酷文本动画、交互动效、动画背景时，这就是视觉升级的秘密武器。

https://github.com/DavidHDev/react-bits

Hermes Pets / clawdex ：终端宠物类工具，它解决了一个真实痛点：AI任务执行时，用户不知道进展到哪了。宠物气泡通知、Dashboard状态展示、任务完成提醒，这些都是「状态可视化」的创意解决方案，谁不喜欢一个会动的桌面宠物呢？

https://github.com/asimons81/hermes-pets

https://github.com/danielkempe/clawdex

2. 浏览器操作

Kimi WebBridge ：面向本地AI Agent的浏览器插件，让AI操作浏览器。它可以打开浏览器、搜索信息、填表、下单。配合Kimi Code和Kimi Work，为本地AI生态增加了重磅机能。

https://kimi.com/zh-cn/features/webbridge

BrowserAct ：面向AI Agent的浏览器自动化CLI，支持Stealth反检测浏览器、动态代理、人机协作、多任务并发等。如果你在做爬虫、自动化测试或者需要AI Agent操作网页，这个工具是基础设施级别的。

https://github.com/browser-act/skills

browser-act-skill-forge ：网站能力锻造器，可将任何网站操作封装成可复用的Skill，自动发现API端点并生成脚本包。你在网页上的操作，都可以被录制、封装、复用。

https://github.com/browser-act/skills

CloakBrowser ：反检测浏览器的硬核方案。CloakBrowser直接在Chromium源码层面打补丁（49+个），修改Canvas、WebGL、音频、字体、GPU等核心指纹生成逻辑。完美兼容Playwright和Puppeteer API。对于数据抓取、自动化测试和AI Agent项目来说，这是强力的浏览器「伪装者」。

https://github.com/CloakHQ/CloakBrowser

3. 其他效率工具

小微：微信原生AI助手，支持聊天、搜索、操作小程序、发消息、发红包、总结群聊、刷朋友圈、生图、P图、文件分析、创建待办事项等。微信终于把AI塞进了自己的生态，而且是深度集成，不是浮在表面的聊天机器人，而是能真的操作微信功能，14 亿人的 AI 入口，未来可期~目前灰度测试中。

PowerToys ：微软官方开源工具箱，30多个独立小工具：FancyZones窗口管理、PowerToys Run启动器、Text Extractor OCR文字提取、ColorPicker取色、PowerRename批量改名、Keyboard Manager快捷键重映射等。

https://github.com/microsoft/PowerToys

OpenToonz ：专业级2D动画制作软件，吉卜力工作室定制使用。开源、免费、专业，如果你想做手绘风格动画，这是最好的起点。虽然不是AI原生工具，但结合AI辅助绘图和SCAIL-2的动画能力，传统动画工作流正在被重塑。

https://github.com/opentoonz/opentoonz

Recordly ：开源桌面录屏与编辑工具，自动缩放、光标美化、时间线编辑，支持导出MP4和GIF。录屏工具的痛点从来不是「录」，而是「剪」。Recordly把时间线编辑和自动缩放做进去了，让「录完就能发」成为可能。做教程、演示、短视频的朋友值得试试。

https://github.com/webadderallorg/Recordly

爱图表：全球首个AI图表智能体（并非首个，真是看腻这些自称首个的 title 了...），支持数据上传、自动生成图表、深度编辑、报告生成和数据可视化大屏。强调数据准确性和结果可控性，感兴趣可以试试。

千问高考志愿填报Agent：国内首个全周期高考志愿填报Agent，覆盖查分、填报到录取跟进。它代表了AI Agent在「民生服务」领域的渗透。教育、医疗、政务、金融，这些传统行业的AI化，正在从「概念」变成「产品」。

二、生产力军火库

好用的，开箱即用的神器。

1.全能型AI工作台

Marvis：腾讯推出的系统级AI助手，具备 6 个可视化Agent（PM、文件、系统、应用、知识库、浏览器），支持端云协同和本地隐私模式，可跨端联动、系统管理、文件处理等。其实和腾讯家另一款 WorkBuddy 比，竞争力不明显，不过人格化、可视化的多 Agent 协助是一个有趣的地方。

Kimi Work：Kimi 的桌面AI工作台，支持目标模式和插件中心，可连接百度网盘、Canva可画、钉钉、飞书、WPS等外部应用，想必各家都会推出这类产品的，又有很多玩意儿可以试试了。

豆包专业版：基于豆包2.1系列大模型的付费AI生产力工具，提供办公任务模式，支持本地电脑操作、浏览器操作、网站生成、Office集成、飞书协同、Skill技能调用和定时任务。免费久了突然收费，天然就会令用户抗拒，实际也就是WorkBuddy、QoderWork、KimiWork之类的竞品。

QoderWake：阿里推出的业界首个安全可控、持续进化的生产级AI数字员工平台。采用Harness-First架构，能在真实工作中承担软件工程师、运营和分析师等角色。每次执行后将经验沉淀到记忆、技能、策略、验证规则和工作流五个维度。6月上线了「员工群组」功能，创建一个群，选好 Leader 和成员，它们就自己协作去了。超越 QoderWork 的「助手」定位，此乃「数字打工人团队」。

Codex 的 Record & Replay：Codex更新了很多功能，录制与复现这个最值得一说。人类手动演示操作流程后，AI 学习打包为 skill，下次自动执行类似任务，非常适合重复性办公任务。

2. 数据与文档处理

Duckle ：本地优先的可视化 ETL 桌面应用，集成 290+ 数据连接器、可视化管道画布和本地AI助手，基于 DuckDB 引擎执行 SQL，数据全程不离开本地机器。像是 Tableau+Alteryx 的本地版，但加上了 AI 助手，数据分析小白也能拖拖拽拽完成复杂 ETL。

https://duckle.org

Zvec ：阿里开源的向量数据库，以嵌入式范式运行，pip install 即可在 Python 进程内使用。基于淘宝搜索、支付宝人脸支付等场景验证过的 Proxima 向量引擎。不是独立服务，而是进程内的数据库，这意味着你的 RAG、Agent 长期记忆、语义搜索不需要额外开端口，直接在自己的代码里跑。

https://github.com/alibaba/zvec

OpenDataLoader ：PDF 解析工具，Apache 2.0许可证。在速度上有明显优势，对于需要处理大量PDF文档的场景来说，值得一试。

https://github.com/opendataloader-project/opendataloader-bench

3. 内容创作与研究

Pavo：Agnes AI最新推出的视频创作平台，在开放全模态免费 AI API 后又推出此等重磅产品，这是要下大棋呀。在操作上，你可以只写一句话说明短片想法，Agent 会自动生成标题、大纲、时长、画幅、视觉风格等框架的文字信息，你确认后即可再继续生图输出角色设计、场景设计等，随后进入分镜视频生成，最终将每颗镜头合成为一个短片。全流程都由 Agent 在与你的对话交互中实现，品质自然是比自己精调要逊色，但对新手而言，完全是喂饭了。

https://app.pavo-ai.work/

wechat-publisher ：公众号运营者的福音。Markdown自动排版、上传图片、生成封面、推送草稿，支持AI味检测、16套主题、本地运行。

https://github.com/penxxy/wechat-publisher

xiaohu-wechat-format ：另一个公众号排版利器，支持85套主题、CJK排版修复、封面提示词生成。

https://github.com/xiaohuailabs/xiaohu-wechat-format

FigEdit ：一款开源 Skill，给它一张截图、论文配图、AI 生成的幻灯片、技术架构图、或者任何图片格式的图形，它会把图片拆解重建成可编辑的矢量图形包。从此图片编辑自由不是梦！

https://github.com/giszzt/figedit

alphaXiv ：面向 arXiv 论文的 auto research 功能，可自动复现论文、修复代码配置、运行最小化复现并估算完整复现成本。科研人的「论文复现神器」，现在 alphaXiv 可以帮你自动跑起来，还能告诉你复现需要多少钱、多长时间。这个工具如果能做好，将极大加速科研迭代速度。

https://x.com/askalphaxiv/status/2067593673072877833

PaperSeek ：将自然语言检索意图转化为可执行检索式的开源文献检索工具，支持概念抽取、检索式生成、试搜校准、候选文献拉取、相关性排序、引用扩展和结果导出。你描述想要找什么，它帮你生成检索式、试搜、优化、导出结果。对于不擅长构造复杂检索式的研究者来说，这能大幅提升文献调研效率。

https://modelscope.cn/studios/HongMingfeng/PaperSeek

phuryn/pm-skills ：100多个产品经理方向的Agentic Skills，3600+ Star。产品经理的工作流程（需求分析、竞品调研、原型设计、需规撰写）已然被逐个拆解成可复用的Skill。

https://github.com/phuryn/pm-skills

三、前沿动态回顾

好看的，大公司的动作、行业动态或优质资料。

1.大公司的生态布局

Apple Intelligence：苹果AI新架构，包括与Gemini合作的端侧模型、Private Cloud Compute、系统编排器等。苹果的做法是「端侧优先+隐私至上」，能本地处理的绝不联网，必须联网的用私有云计算。Siri AI、Image Playground等功能的推出，标志着苹果正式加入AI大战。不过苹果的AI策略一向保守，不求最早，但求最稳。

微信支付AI专属卡 / 各种下单Skill：AI Agent正在从「聊天」「工作」走向「生活」「交易」。微信支付推出的AI专属卡，支持从智能推荐到下单支付的完整消费流程。支付宝、麦当劳、瑞幸、飞猪、滴滴、高德、美团等也纷纷推出Skill/MCP。这意味着未来的 AI Agent 不只是「告诉你去哪吃」，更会「直接帮你点好、付好、送到家」。

飞书Skill / 钉钉Skill / 企业微信Skill / 腾讯文档Skill：办公协同软件的AI化已经是必然趋势。飞书、钉钉、企业微信、腾讯文档都在提供Skill/MCP/CLI接入，让AI Agent可以操作消息、待办、日程、审批、文档。

网易云音乐Skill / 微信读书Skill / 美图Skill：内容消费领域的AI接入。网易云音乐支持搜索、播放、歌单管理、偏好分析；微信读书可查书架、进度、笔记、推荐；美图支持图片编辑、文生图、文生视频、AI写真、换脸等。这些Skill的共同点是把「内容消费」变成「可编程的」。

Kimi K2.7 Code + Kimi WebBridge + Kimi Work + Kimi信用卡：月之暗面这个月也动作频频。K2.7 Code巩固编程优势，WebBridge打通浏览器，Work模式整合办公生态。还有 Kimi 信用卡，消费转化为AI算力额度，AI服务和金融产品的跨界，是一个相当有趣的商业创新。

2. 优质资料

坏蛋如何用3句话让大模型破防？当一名遵纪守法的"好AI"有多难？

B站：BV1WHVm6rEsU

新名词诈骗！你管这破玩意叫 Loop Engineering？

B站：BV1Xg7v6PEr9

分享10本我觉得AI时代应该必读的好书。

https://mp.weixin.qq.com/s/KQHWEERhWMN1p51Sm2WRoQ

后记

此处省略100字升华。

好了，本月的再探再报就到这里。如果你有什么新发现的工具，或者对上面某个工具想深入了解，欢迎留言。

这里是你的AI工具猎人 Seon塞翁，下个月见！