[GLM-4.6V 多模态能力测评】对论文pipeline图的理解能力 #视觉理解MCP、#GLM我的编码搭子

前言

开发背景

[claude code中安装MCP](#claude code中安装MCP)

测试

#视觉理解MCP、#GLM我的编码搭子

前言

正在写论文综述的时候看到GLM开发者群有GLM-4.6V 多模态能力测评的活动，刚好利用本次活动试用一下GLM-4.6V。

开发背景

目前由于翻译软件的限制，论文翻译并不能翻译包括图、表之类的内容，只能翻译可编辑的PDF正文，此时如果有一个能读懂图表的大模型，则能大大降低阅读论文与理解论文的时间。

claude code中安装MCP

参考视觉理解 MCP - 智谱AI开放文档 (bigmodel.cn)

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=API代码 -- npx -y "@z_ai/mcp-server"

显示：

在claude code中确认

测试

我的测试图片如下，是MOOSE的pipeline思路图：

输入

bash 复制代码

hi describe this C:\Users\Administrator\Desktop\开题\fig\MOOSE.png

得到结果：

翻译

这是一张技术示意图，展示了 MOOSE 算法框架。以下是它的内容：

整体结构

该图描绘了一个迭代过程，包含多个轮次，用于从文献中生成和优化科学假设：

左侧 - 主流程：

输入 (I)：文献语料库（左侧的粉色圆柱体）

背景节点 (b)：一个中心背景知识组件（顶部的绿色圆圈）

一轮迭代：显示从 i₁₁ → i₁₂ → ... → i₁ₚ 的进展

每个灵感节点 (i) 生成假设节点 (h)，以黄色/橙色显示在下方

评分分数 (r) 与每个假设相关联

流程继续到第二层，包含节点 i₂₁, i₂₂, ..., i₂q

右侧 - 详细过程： 展示突变-优化-重组循环：

从 b（背景）和 i（灵感）开始

突变：创建多个假设变异（m₁¹, m₂¹, mₙ¹）

优化：多次优化迭代，生成后续代（m₁², m₂² 等）

重组：将优化后的假设组合成最终假设 (h)

图例：

b: 背景

i: 灵感

h: 假设

m: 假设变异

r: 评分分数

I: 文献语料库

这似乎是一种多目标优化或进化算法，用于从学术文献中自动生成和优化科学假设。

结果分析

结果比我想象中的好的多，不仅识别出了pipeline的具体流程，还能一针见血的指出这是一个进化算法。与论文原文比对后发现其基本理解正确！说明国产模型的潜力无限。

免费试用

欢迎大家通过我的邀请链接注册即可获得 2000万Tokens 大礼包，期待和你一起在BigModel上畅享卓越模型能力

https://www.bigmodel.cn/invite?icode=ViYqnIUjbCH%2BH4HQKxZgabC%2Fk7jQAKmT1mpEiZXXnFw%3D