2026年6月AI生产力再探再报:又出什么新东西了?

前言

每个月都像在追一部永远不停更的连续剧,剧名叫「AI圈又出什么新东西了」。

上个月还在吹的模型这个月就成了上一代,上周刚学会的框架这周就被官宣弃用,总之还是:工具不在多,不在新,在能用。

下面开始,各就各位。


一、工具尝鲜快报

好玩的,初探感觉不错的工具。

模型篇

1. 海的那边

Anthropic Claude Mythos/Fable 5:还说啥呢,因为过于强大都被川普封禁了,管他,反正上线了我也用不上。

OpenAI GPT-5.6:GPT-5.6 Sol是旗舰,负责「硬骨头」(编程、生物信息、网络安全);GPT-5.6 Terra 干「日常工作」,主打性价比,性能据说可以对标GPT-5.5但便宜一半;GPT-5.6 Luna是「价格敏感型用户」的福音,最便宜。也是被A社的神话寓言逼急了,搞起了日月大地,但被曝跑分时作弊。变强了,却没有那么强。

Agnes 全家桶(Agnes-2.0-Flash / Agnes-Image-2.1-Flash / Agnes-Video-2.0):Agnes AI 是新加坡 Sapiens AI 公司的「全模态 AI 实验室」,6月起向开发者开放了无限期免费、不限量的文本、图像、视频 AI,不是、哥们?全模态免费 API,算力从哪来的呀!先白嫖用了再说。

Gemma 4 12B:谷歌开源的多模态模型,之前就开源了多个型号的,这次是12B参数,支持图像和音频直接输入,无需独立编码器,Apache 2.0协议,256K上下文。阿美莉卡的源神大旗由谷歌扛起了。

Qwythos-9B:由独立 AI 实验室 Empero 推出的小模型,从名字可以看出是 Qwen 和 Mythos的合体,仅9B参数,却吸收了 Claude Mythos 和 Fable 的高质量推理轨迹,支持 1M 的超长上下文,最低 4GB 显存即可本地运行,证明了后训练技术可以让小模型拥有大模型的思维深度。

gemma-4-12B-coder-fable5-composer2.5:更震撼的来了,个人开发者 luyuxin (在美研究生)因学业太无聊而做的试验,基于 gemma4 蒸的 Fable+Opus 4.8,杀进了 Hugging Face 开源模型榜,主打 Agentic 的 V2 和主打 Coder 的 V1 版分别位列第三、第四。顺便一提,第一、第二分别是智谱GLM-5.2和百度Unlimited-OCR。

2. 挑战者们

GLM 5.2:智谱再次憋了个大招,1M上下文,MIT协议完全开源,Agentic Coding 对标 Claude Opus 4.8,国内 Coding 模型的新标杆。

Qwen3.7-Plus:阿里的多模态交互混合智能体模型,统一视觉与语言能力,支持GUI操作、代码生成、多模态推理和真实世界感知。

Qwen-AgentWorld:业内首个原生语言世界模型(LWM),一个内置 「世界模拟器」 的大模型,能在脑子里先模拟环境反馈,再决定怎么行动。在概念上是很有趣的方向,但实际表现,还是得让子弹飞一会。

WeLM:微信团队自研的大语言模型,不算上新,但随着微信AI助手「小微」而再次浮出水面。WeLM 作为小微的幕后核心大脑,完成大部分操作,部分复杂问答也会借助 DeepSeek 配合,属于「自研+外援」的混合策略。这步棋下得很大,目前还在灰度测试中。

豆包Seed 2.1 Pro:不来点硬货怎么对得起收费模式,感兴趣可以在豆包客户端的任务模式中体验。

Kimi K2.7 Code:月之暗面的编程专用模型,相比 K2.6 在长上下文编程场景上提升明显,改善了过度思考的毛病,配合 AI CLI 工具 Kimi Code,似乎可以作为 Claude Code + Opus 的易用替代。

3. 视觉组

PP-OCRv6:百度飞桨PaddleOCR的第六代文本检测识别模型,提供Tiny、Small、Medium三档,从浏览器到嵌入式到服务器全覆盖,支持50种语言。实测比之前的飞桨模型好用多了,让 AI 配置环境没有那么奇奇怪怪的问题了。

Unlimited-OCR:百度开源的 OCR 模型,基于 DeepSeek-OCR 2 架构(此模型正是该团队研究员跳槽到百度后的新作),采用 R-SWA 注意力机制,支持长文档OCR,MIT许可证。和 PP-OCRv6 的定位不同,Unlimited-OCR 更偏向「长文档」场景,有空再深入对比一下两者。

LLaVA-OneVision-2.0:一款面向下一代感知智能的视觉语言大模型,利用视频Codec流和自研OneVision-Encoder实现跨帧、跨事件的增量观测和连续证据流建模。在视频理解、空间推理和目标追踪等任务中具有应用潜力。虽然名字长得像密码,但技术方向很清晰,让AI不仅能「看懂」单帧图片,还能「看懂」视频里的时空关系。

4. 图像组

Ideogram4:Ideogram终于开源了,而且是从头训练、非基于现有模型微调的9.3B参数模型。文本渲染能力业界领先,支持JSON提示接口、边界框布局、调色板控制,原生2K分辨率。

Boogu-Image 0.1:统一图像生成与编辑模型家族,支持文生图、指令式编辑和中英双语文本渲染。Boogu-Image-0.1-Base负责超密集文本渲染和下游微调,Boogu-Image-0.1-Edit负责指令式编辑和跨风格迁移,Boogu-Image-0.1-Turbo是蒸馏版3-4步出图。

Krea2:开源发布、磁力链下载这很极客,12B参数,人像生成强悍,据说可以把 Boogu-Image 按在地上暴打。缺点是中文渲染不行,信息图密集文字会崩。但人像、场景、插画类生成质量很顶。

Bonsai Image:PrismML公司发布的轻量级模型,基于FLUX.2 Klein 4B架构,通过1-bit或三进制量化压缩,可在本地设备运行。配套还有iOS应用Bonsai Studio,可离线生图,这是「端侧AI」趋势的典型代表。

JoyAI-Image-Edit:京东开源的一体化图像模型,把空间智能融入模型架构底层,支持物体移动、旋转和相机控制等空间编辑能力。

除了这些还屯了好多想测的开源模型,得尽快肝出来= A =。

Seedream 5.0 Pro:字节的图像生成模型,支持交互式精准编辑、多图层分离、高密度信息呈现,支持10余种语言。国内的生图,确实还是豆包最强。

MAI Image 2.5:微软自家的图像生成模型,进入PowerPoint,后续会扩展到OneDrive和Foundry。微软的打法很清晰:模型不单独卖,而是塞进你天天用的Office里,让你在写PPT的时候顺手生成配图。

5. 视频组

Seedance 2.5:字节视频生成模型,支持最长30秒视频、50个全模态素材联合输入,还有局部视频编辑能力。50个参考?!SD2.0还没玩明白呢,世上还有谁能动摇2.0的地位吗,哦,是2.5啊。

**DreamX-World **:基于 Wan2.2-TI2V-5B 构建的长时程自回归视频模型,支持根据图像+文本+相机动作指令生成视频,分块因果自回归推理+KV缓存,这个系列的技术路线很硬核,但长视频生成目前仍是能跑但不好用的阶段,对硬件要求也很高。

JoyAI-Echo:京东开源的长音视频生成框架,支持长达5分钟的跨镜头音视频双重一致、非线性剪辑与局部重绘、流式实时超分,最高输出1472×2560分辨率。这是目前开源视频生成里的「时长天花板」。

Grok Imagine Video 1.5:xAI从预览转正,全面可用。音频与语音更清晰、嘴型同步更好、运动物理更连贯,谁才是真正的快乐马,我不说。

SCAIL-2:智谱联合清华大学开源的影视级角色动画框架第二代,基于DiT架构,端到端训练直接实现动画迁移,无需姿态估计中间环节。能驱动人体、动物、手绘角色,支持多人物交互。

Bernini:字节开源的多模态统一视频模型,采用「大模型负责语义理解与规划,diffusion负责视觉渲染」的分工架构。覆盖了参考生成、视频编辑等多种任务。视频模型中,在闭源上能打败字节的是字节,开源上也是。

6. 语音组

MOSS-TTS-Local-Transformer-v1.5:开源TTS模型,支持48kHz立体声、零样本声音克隆、最长10分钟长文本合成,核心采用Qwen3-4B骨干+约2B参数的音频编解码器。SGLang-Omni三阶段流水线部署。

MAI Transcribe 1.5:微软的转录模型,支持43种语言,速度达到竞品5倍。正在往GitHub、Teams、Copilot、Dynamics 365里塞。微软在把AI塞进每一个Office按钮这件事上,开始加速了。

MAI Voice 2:同样是微软推出,支持15种语言的语音模型,可通过短样本适配声音,内置防滥用保护。

这两个月开始涉猎 AI 短剧,所以也开始关注更多样的模型了。

应用篇

1. AI Coding

MiMo Code:小米开源的终端AI编程助手,基于OpenCode二次开发,MIT协议。它的特点是「持久记忆系统+无限上下文」,还有独创的Compose模式和Dream记忆沉淀系统,支持语音输入。

Kimi Code:同上类似,非开源,各家做这种都是对标 Claude Code 去的。Kimi 这款的特点是

Qoder 新命令:阿里推出的AI编程IDE。新增/run-skill-generator、/run和/verify三个命令,实现知识录制、快速观察和闭环验证。另外,此前 Mac 版 QoderWork 上线的 Computer Use 功能,Windows 版也有了,可自动执行桌面任务如启动应用、点击控件、输入文本等。

Ponytail :AI Agent插件,通过过滤链减少过度工程,兼容13个主流AI Agent,可减少代码量80-94%,提升速度3-6倍。

https://github.com/DietrichGebert/ponytail

agentsview :本地Web应用,自动扫描并统计Claude Code、Codex、Cursor等20多种AI编码Agent的会话记录,支持搜索、浏览、分析和统计token消耗与费用。如果你同时在用三四个AI编程工具,这个工具就是你的「记账本+监控器」。

https://github.com/kenn-io/agentsview

SkillSpector :NVIDIA开源的静态分析扫描器,检测AI Skills中的16大类64种漏洞模式,包括恶意命令注入、prompt注入、凭证窃取、数据外泄等。

https://github.com/NVIDIA/SkillSpector

CLI-Anything :香港大学开源的工具,能把任何有源码的软件自动生成命令行接口,让AI Agent直接操控专业软件。这个思路很妙,不是让软件适配AI,而是让AI能适配任何软件。如果你的工作流里有很多专业工具(比如MATLAB、AutoCAD、各种数据分析软件),这个工具可以大幅降低AI接入的门槛。

https://github.com/HKUDS/CLI-Anything

React Bits :开源 React 动画组件库,130+视觉冲击力组件,是前端开发者的「动画弹药库」,需要炫酷文本动画、交互动效、动画背景时,这就是视觉升级的秘密武器。

https://github.com/DavidHDev/react-bits

Hermes Pets / clawdex :终端宠物类工具,它解决了一个真实痛点:AI任务执行时,用户不知道进展到哪了。宠物气泡通知、Dashboard状态展示、任务完成提醒,这些都是「状态可视化」的创意解决方案,谁不喜欢一个会动的桌面宠物呢?

https://github.com/asimons81/hermes-pets

https://github.com/danielkempe/clawdex

2. 浏览器操作

Kimi WebBridge :面向本地AI Agent的浏览器插件,让AI操作浏览器。它可以打开浏览器、搜索信息、填表、下单。配合Kimi Code和Kimi Work,为本地AI生态增加了重磅机能。

https://kimi.com/zh-cn/features/webbridge

BrowserAct :面向AI Agent的浏览器自动化CLI,支持Stealth反检测浏览器、动态代理、人机协作、多任务并发等。如果你在做爬虫、自动化测试或者需要AI Agent操作网页,这个工具是基础设施级别的。

https://github.com/browser-act/skills

browser-act-skill-forge :网站能力锻造器,可将任何网站操作封装成可复用的Skill,自动发现API端点并生成脚本包。你在网页上的操作,都可以被录制、封装、复用。

https://github.com/browser-act/skills

CloakBrowser :反检测浏览器的硬核方案。CloakBrowser直接在Chromium源码层面打补丁(49+个),修改Canvas、WebGL、音频、字体、GPU等核心指纹生成逻辑。完美兼容Playwright和Puppeteer API。对于数据抓取、自动化测试和AI Agent项目来说,这是强力的浏览器「伪装者」。

https://github.com/CloakHQ/CloakBrowser

3. 其他效率工具

小微:微信原生AI助手,支持聊天、搜索、操作小程序、发消息、发红包、总结群聊、刷朋友圈、生图、P图、文件分析、创建待办事项等。微信终于把AI塞进了自己的生态,而且是深度集成,不是浮在表面的聊天机器人,而是能真的操作微信功能,14 亿人的 AI 入口,未来可期~目前灰度测试中。

PowerToys :微软官方开源工具箱,30多个独立小工具:FancyZones窗口管理、PowerToys Run启动器、Text Extractor OCR文字提取、ColorPicker取色、PowerRename批量改名、Keyboard Manager快捷键重映射等。

https://github.com/microsoft/PowerToys

OpenToonz :专业级2D动画制作软件,吉卜力工作室定制使用。开源、免费、专业,如果你想做手绘风格动画,这是最好的起点。虽然不是AI原生工具,但结合AI辅助绘图和SCAIL-2的动画能力,传统动画工作流正在被重塑。

https://github.com/opentoonz/opentoonz

Recordly :开源桌面录屏与编辑工具,自动缩放、光标美化、时间线编辑,支持导出MP4和GIF。录屏工具的痛点从来不是「录」,而是「剪」。Recordly把时间线编辑和自动缩放做进去了,让「录完就能发」成为可能。做教程、演示、短视频的朋友值得试试。

https://github.com/webadderallorg/Recordly

爱图表:全球首个AI图表智能体(并非首个,真是看腻这些自称首个的 title 了...),支持数据上传、自动生成图表、深度编辑、报告生成和数据可视化大屏。强调数据准确性和结果可控性,感兴趣可以试试。

千问高考志愿填报Agent:国内首个全周期高考志愿填报Agent,覆盖查分、填报到录取跟进。它代表了AI Agent在「民生服务」领域的渗透。教育、医疗、政务、金融,这些传统行业的AI化,正在从「概念」变成「产品」。

二、生产力军火库

好用的,开箱即用的神器。

1.全能型AI工作台

Marvis:腾讯推出的系统级AI助手,具备 6 个可视化Agent(PM、文件、系统、应用、知识库、浏览器),支持端云协同和本地隐私模式,可跨端联动、系统管理、文件处理等。其实和腾讯家另一款 WorkBuddy 比,竞争力不明显,不过人格化、可视化的多 Agent 协助是一个有趣的地方。

Kimi Work:Kimi 的桌面AI工作台,支持目标模式和插件中心,可连接百度网盘、Canva可画、钉钉、飞书、WPS等外部应用,想必各家都会推出这类产品的,又有很多玩意儿可以试试了。

豆包专业版:基于豆包2.1系列大模型的付费AI生产力工具,提供办公任务模式,支持本地电脑操作、浏览器操作、网站生成、Office集成、飞书协同、Skill技能调用和定时任务。免费久了突然收费,天然就会令用户抗拒,实际也就是WorkBuddy、QoderWork、KimiWork之类的竞品。

QoderWake:阿里推出的业界首个安全可控、持续进化的生产级AI数字员工平台。采用Harness-First架构,能在真实工作中承担软件工程师、运营和分析师等角色。每次执行后将经验沉淀到记忆、技能、策略、验证规则和工作流五个维度。6月上线了「员工群组」功能,创建一个群,选好 Leader 和成员,它们就自己协作去了。超越 QoderWork 的「助手」定位,此乃「数字打工人团队」。

Codex 的 Record & Replay:Codex更新了很多功能,录制与复现这个最值得一说。人类手动演示操作流程后,AI 学习打包为 skill,下次自动执行类似任务,非常适合重复性办公任务。

2. 数据与文档处理

Duckle :本地优先的可视化 ETL 桌面应用,集成 290+ 数据连接器、可视化管道画布和本地AI助手,基于 DuckDB 引擎执行 SQL,数据全程不离开本地机器。像是 Tableau+Alteryx 的本地版,但加上了 AI 助手,数据分析小白也能拖拖拽拽完成复杂 ETL。

https://duckle.org

Zvec :阿里开源的向量数据库,以嵌入式范式运行,pip install 即可在 Python 进程内使用。基于淘宝搜索、支付宝人脸支付等场景验证过的 Proxima 向量引擎。不是独立服务,而是进程内的数据库,这意味着你的 RAG、Agent 长期记忆、语义搜索不需要额外开端口,直接在自己的代码里跑。

https://github.com/alibaba/zvec

OpenDataLoader :PDF 解析工具,Apache 2.0许可证。在速度上有明显优势,对于需要处理大量PDF文档的场景来说,值得一试。

https://github.com/opendataloader-project/opendataloader-bench

3. 内容创作与研究

Pavo:Agnes AI最新推出的视频创作平台,在开放全模态免费 AI API 后又推出此等重磅产品,这是要下大棋呀。在操作上,你可以只写一句话说明短片想法,Agent 会自动生成标题、大纲、时长、画幅、视觉风格等框架的文字信息,你确认后即可再继续生图输出角色设计、场景设计等,随后进入分镜视频生成,最终将每颗镜头合成为一个短片。全流程都由 Agent 在与你的对话交互中实现,品质自然是比自己精调要逊色,但对新手而言,完全是喂饭了。

https://app.pavo-ai.work/

wechat-publisher :公众号运营者的福音。Markdown自动排版、上传图片、生成封面、推送草稿,支持AI味检测、16套主题、本地运行。

https://github.com/penxxy/wechat-publisher

xiaohu-wechat-format :另一个公众号排版利器,支持85套主题、CJK排版修复、封面提示词生成。

https://github.com/xiaohuailabs/xiaohu-wechat-format

FigEdit :一款开源 Skill,给它一张截图、论文配图、AI 生成的幻灯片、技术架构图、或者任何图片格式的图形,它会把图片拆解重建成可编辑的矢量图形包。从此图片编辑自由不是梦!

https://github.com/giszzt/figedit

alphaXiv :面向 arXiv 论文的 auto research 功能,可自动复现论文、修复代码配置、运行最小化复现并估算完整复现成本。科研人的「论文复现神器」,现在 alphaXiv 可以帮你自动跑起来,还能告诉你复现需要多少钱、多长时间。这个工具如果能做好,将极大加速科研迭代速度。

https://x.com/askalphaxiv/status/2067593673072877833

PaperSeek :将自然语言检索意图转化为可执行检索式的开源文献检索工具,支持概念抽取、检索式生成、试搜校准、候选文献拉取、相关性排序、引用扩展和结果导出。你描述想要找什么,它帮你生成检索式、试搜、优化、导出结果。对于不擅长构造复杂检索式的研究者来说,这能大幅提升文献调研效率。

https://modelscope.cn/studios/HongMingfeng/PaperSeek

phuryn/pm-skills :100多个产品经理方向的Agentic Skills,3600+ Star。产品经理的工作流程(需求分析、竞品调研、原型设计、需规撰写)已然被逐个拆解成可复用的Skill。

https://github.com/phuryn/pm-skills

三、前沿动态回顾

好看的,大公司的动作、行业动态或优质资料。

1.大公司的生态布局

Apple Intelligence:苹果AI新架构,包括与Gemini合作的端侧模型、Private Cloud Compute、系统编排器等。苹果的做法是「端侧优先+隐私至上」,能本地处理的绝不联网,必须联网的用私有云计算。Siri AI、Image Playground等功能的推出,标志着苹果正式加入AI大战。不过苹果的AI策略一向保守,不求最早,但求最稳。

微信支付AI专属卡 / 各种下单Skill:AI Agent正在从「聊天」「工作」走向「生活」「交易」。微信支付推出的AI专属卡,支持从智能推荐到下单支付的完整消费流程。支付宝、麦当劳、瑞幸、飞猪、滴滴、高德、美团等也纷纷推出Skill/MCP。这意味着未来的 AI Agent 不只是「告诉你去哪吃」,更会「直接帮你点好、付好、送到家」。

飞书Skill / 钉钉Skill / 企业微信Skill / 腾讯文档Skill:办公协同软件的AI化已经是必然趋势。飞书、钉钉、企业微信、腾讯文档都在提供Skill/MCP/CLI接入,让AI Agent可以操作消息、待办、日程、审批、文档。

网易云音乐Skill / 微信读书Skill / 美图Skill:内容消费领域的AI接入。网易云音乐支持搜索、播放、歌单管理、偏好分析;微信读书可查书架、进度、笔记、推荐;美图支持图片编辑、文生图、文生视频、AI写真、换脸等。这些Skill的共同点是把「内容消费」变成「可编程的」。

Kimi K2.7 Code + Kimi WebBridge + Kimi Work + Kimi信用卡:月之暗面这个月也动作频频。K2.7 Code巩固编程优势,WebBridge打通浏览器,Work模式整合办公生态。还有 Kimi 信用卡,消费转化为AI算力额度,AI服务和金融产品的跨界,是一个相当有趣的商业创新。

2. 优质资料

坏蛋如何用3句话让大模型破防?当一名遵纪守法的"好AI"有多难?

B站:BV1WHVm6rEsU

新名词诈骗!你管这破玩意叫 Loop Engineering?

B站:BV1Xg7v6PEr9

分享10本我觉得AI时代应该必读的好书。

https://mp.weixin.qq.com/s/KQHWEERhWMN1p51Sm2WRoQ


后记

此处省略100字升华。

好了,本月的再探再报就到这里。如果你有什么新发现的工具,或者对上面某个工具想深入了解,欢迎留言。

这里是你的AI工具猎人 Seon塞翁,下个月见!

相关推荐
AI的探索之旅2 小时前
AI Agent替我做原理图:立创EDA + CubeMX + 知识库的三合一工作流
人工智能
开开心心_Every2 小时前
带OCR识别的电子发票打印工具
运维·自动化·ocr·电脑·powerpoint·音视频·lua
阿拉斯攀登2 小时前
Agent 框架对比:LangChain / AutoGPT / CrewAI
人工智能·langchain·agent·rag·function
丹宇码农2 小时前
基于 Top-K Logits 的 LLM 知识蒸馏实战
人工智能·ai·ai编程
lkshop2 小时前
自研 GEO 系统实战:从架构设计到“一键投喂”多平台 AI 大模型
人工智能·geo
维基框架2 小时前
Claude Mythos Preview 发布后严重漏洞激增:安全还是营销?
人工智能·安全
Csvn2 小时前
AI Prompt 炼金术:让 AI 写代码 一次过
人工智能
Csvn2 小时前
AI 编程提效核心技巧(直接复制套用,大幅减少手写代码时间)
人工智能
delishcomcn2 小时前
预见性切割:机器学习如何提前预警碳带分切机的报废风险
人工智能·机器学习
拧AI螺丝2 小时前
你往 AI 里装的那些 skill,打开看过一眼吗?
人工智能·agent