[GLM-4.6V 多模态能力测评】对论文pipeline图的理解能力 #视觉理解MCP、#GLM我的编码搭子

目录

前言

开发背景

[claude code中安装MCP](#claude code中安装MCP)

测试


#视觉理解MCP、#GLM我的编码搭子

前言

正在写论文综述的时候看到GLM开发者群有GLM-4.6V 多模态能力测评的活动,刚好利用本次活动试用一下GLM-4.6V。

开发背景

目前由于翻译软件的限制,论文翻译并不能翻译包括图、表之类的内容,只能翻译可编辑的PDF正文,此时如果有一个能读懂图表的大模型,则能大大降低阅读论文与理解论文的时间。

claude code中安装MCP

参考视觉理解 MCP - 智谱AI开放文档 (bigmodel.cn)

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=API代码 -- npx -y "@z_ai/mcp-server"

显示:

在claude code中确认

测试

我的测试图片如下,是MOOSE的pipeline思路图:

输入

bash 复制代码
hi describe this C:\Users\Administrator\Desktop\开题\fig\MOOSE.png

得到结果:

翻译

这是一张技术示意图,展示了 MOOSE 算法框架。以下是它的内容:

整体结构

该图描绘了一个迭代过程,包含多个轮次,用于从文献中生成和优化科学假设:

左侧 - 主流程:

  • 输入 (I):文献语料库(左侧的粉色圆柱体)
  • 背景节点 (b):一个中心背景知识组件(顶部的绿色圆圈)
  • 一轮迭代:显示从 i₁₁ → i₁₂ → ... → i₁ₚ 的进展
    • 每个灵感节点 (i) 生成假设节点 (h),以黄色/橙色显示在下方
    • 评分分数 (r) 与每个假设相关联
    • 流程继续到第二层,包含节点 i₂₁, i₂₂, ..., i₂q

右侧 - 详细过程: 展示突变-优化-重组循环:

  1. 从 b(背景)和 i(灵感)开始
  2. 突变:创建多个假设变异(m₁¹, m₂¹, mₙ¹)
  3. 优化:多次优化迭代,生成后续代(m₁², m₂² 等)
  4. 重组:将优化后的假设组合成最终假设 (h)

图例:

  • b: 背景
  • i: 灵感
  • h: 假设
  • m: 假设变异
  • r: 评分分数
  • I: 文献语料库

这似乎是一种多目标优化或进化算法,用于从学术文献中自动生成和优化科学假设。

结果分析

结果比我想象中的好的多,不仅识别出了pipeline的具体流程,还能一针见血的指出这是一个进化算法。与论文原文比对后发现其基本理解正确!说明国产模型的潜力无限。

免费试用

欢迎大家通过我的邀请链接注册即可获得 2000万Tokens 大礼包,期待和你一起在BigModel上畅享卓越模型能力

https://www.bigmodel.cn/invite?icode=ViYqnIUjbCH%2BH4HQKxZgabC%2Fk7jQAKmT1mpEiZXXnFw%3D

相关推荐
大闲在人9 分钟前
10. 配送中心卡车卸货流程分析:产能利用率与利特尔法则的实践应用
人工智能·供应链管理·智能制造·工业工程
woshikejiaih9 分钟前
**播客听书与有声书区别解析2026指南,适配不同场景的音频
大数据·人工智能·python·音视频
qq74223498411 分钟前
APS系统与OR-Tools完全指南:智能排产与优化算法实战解析
人工智能·算法·工业·aps·排程
兜兜转转了多少年13 分钟前
从脚本到系统:2026 年 AI 代理驱动的 Shell 自动化
运维·人工智能·自动化
LLWZAI16 分钟前
十分钟解决朱雀ai检测,AI率为0%
人工智能
无忧智库16 分钟前
某市“十五五“智慧气象防灾减灾精准预报系统建设方案深度解读 | 从“看天吃饭“到“知天而作“的数字化转型之路(WORD)
大数据·人工智能
方见华Richard17 分钟前
方见华个人履历|中英双语版
人工智能·经验分享·交互·原型模式·空间计算
凤希AI伴侣17 分钟前
凤希AI伴侣:一人成军的工具哲学与全模态内容实践-2026年2月7日
人工智能·凤希ai伴侣
Sagittarius_A*19 分钟前
特征检测:SIFT 与 SURF(尺度不变 / 加速稳健特征)【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉·surf·sift
像风一样的男人@33 分钟前
python --读取psd文件
开发语言·python·深度学习