GLM-4.6V 初探:国产 AI 能边写边自己配图了

写文章时总会遇到需要插图解释的地方,之前分享过即梦可以为文章全文配图了。

即梦AI竟然可以全文一键配图了? - 掘金

但终归还需要手动复制、粘贴,体验没有那么完美。

常用的 AI 我当时也尝试了,只有 Gemini 给出了图文混排的结果。

如今,国产模型给出了选择------GLM-4.6V,一键搞定图文混排内容创作。

GLM-4.6V

GLM 的 V 系列是智谱模型中的多模态大模型,效果一直不错。

本次发布包括两款模型:

  • GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版;
  • GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。

其中,Flash 版本依然免费提供给大家使用。

这次发布的主要内容如下:

  • 训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA
  • 首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从**「视觉感知」「可执行行动(Action)」**的链路。

我们直接到 z.ai 上体验下"工具调用能力原生融入视觉模型"是什么感受。

原生多模态工具调用实测

场景比较简单,我让 GLM-4.6V 帮我写一篇 Gemini 3 Pro 的科普文章,重要的是输出要图文混排。

提示词

复制代码
帮我写一篇介绍 Gemini 3 pro 的科普文章,需要图文并茂

截图中可以看到思考过程中就可以调用图片搜索工具(Function),查找适合的图片以供使用。

后续也确实在文章中使用了上面的图片,并针对图片进行了文字解释。

整个过程完全自动化,一轮对话就能得到一篇图文并茂的高质量文章了。

结语

这意味着,以后的内容创作,终于不用在不同模型间来回切换了。

但我认为意义远不止这一点。

多模态大模型中的"多"一直指的是可以支持的种类多,而不是一轮对话中的语料模态"多"

现在,使用 GLM-4.6V,我们可以一次性传递文字、图片两种模态,后续语音、视频估计也会陆续出现。

这种模型能力的提升,将会更加精准的描述真实世界,相应的,模型后续的服务水平也一定会再次提升。

相关推荐
拾光向日葵5 分钟前
2026考研:南京林业大学接受理学调剂的专业有哪些
大数据·人工智能·物联网
云边云科技_云网融合6 分钟前
详解Token经济:智能时代的价值标尺与产业全链路重构
人工智能·aigc·token
LDG_AGI8 分钟前
【搜索引擎】Elasticsearch(二):基于function_score的搜索排序
数据库·人工智能·深度学习·elasticsearch·机器学习·搜索引擎·推荐算法
AI攻城狮12 分钟前
Anthropic 开源了 Claude 的 Agent Skills 仓库:文档技能的底层实现全公开了
人工智能·云原生·aigc
XM_jhxx13 分钟前
从“自动化”到“自主化”:工业AI正在改变什么?
大数据·人工智能
CodeCraft Studio14 分钟前
高性能图表库SciChart助力机器人实现实时AI驱动的性能提升
人工智能·信息可视化·机器人·数据可视化·scichart·高性能图表库·wpf图表库
这张生成的图像能检测吗15 分钟前
(论文速读)UWDET:基于物联网的资源有限水下目标探测训练增强
人工智能·深度学习·物联网·目标检测·计算机视觉·水下目标检测
Nova_AI15 分钟前
009、AI安全与可信:合规、治理与新兴市场
人工智能·安全
小超同学你好16 分钟前
Transformer 24. Gemma 2 架构详解:交替局部/全局注意力、GQA、双层 RMSNorm 与 Logit Soft-Capping
人工智能·深度学习·transformer
Oflycomm22 分钟前
从硬件到智能:AI摄像头平台驱动安防与自动驾驶融合升级
人工智能·iot·qualcomm·qogrisys·ai摄像头