中转站到底靠不靠谱?我写了个测评工具,先测了微元算力(weytoken)

用 API 中转站的人,心里大多压着四个问题:

  1. 模型有没有被偷梁换柱。我点的是 gpt-5.5,给我的真是它吗,还是偷偷换成了更便宜的小模型?
  2. 数据安全吗。我的代码、提示词、密钥,会不会在中间被记下来、被转走?
  3. 稳不稳。会不会动不动超时、限流、半路断流?
  4. 价格。便宜多少,便宜在哪,有没有藏着更贵的坑?

这些问题,光看中转站自己的宣传页是得不到答案的,广告谁都会写。于是我做了件更实在的事:写了一个评测工具 llm-gateway-eval(目前还在打磨,计划后面开源),把"中转站靠不靠谱"拆成能跑、有证据的测试,再拿它实测了一家叫微元算力(weytoken)的中转站。

这篇先讲这套评测怎么测、为什么这么测才可信,再讲 weytoken 实测下来什么样。有亮点,也有短板,都如实写。

一、先说测评原理

想法很简单:你把真实的代码、真金白银的调用交给一个中转站,它就不是"能回一句你好"就算靠谱的东西。该像对待任何一个你要长期依赖的服务那样,认真查一遍它有没有在中间偷工减料。

具体怎么跑?我用 Codex 当测试载体------它是个真在干活的编码 agent,会多步改代码、跑命令,而且产出能用脚本验证对错(过 / 不过),这比单纯比"两段文本谁更像"硬得多。一段能跑通验证的代码,骗不了人。

做法是控制变量的 A/B 对比。基线那侧,让 Codex 用官方订阅账号直连官方;测试那侧,只改一处------把后端 provider 切到中转站的 API,其余全不动:同一个 Codex、同一批真实编码任务(发票汇总、JSONL 事件、Markdown 目录、回文、重试调度)、同样的 prompt、同样的验证脚本、同样的重复次数。这样跑下来,两边在通过率、耗时、token 用量上的任何差异,就能干净地归到中转站这一层。下面五条检查,都是从这套对比里读出来的信号。

它把上面四个顾虑拆成五条可执行的检查线,每条都遵循同一个原则:只给证据,不越界下结论。这点后面会反复出现,也是我觉得它比"截图测评"靠谱的地方。

模型是不是真的? 没有任何一句 prompt 能"证明"模型身份,所以这里做的是异常检测,不是断案。它和官方直连基线跑同一批用例、同样的解码参数,比对结果差异;跟踪请求的 requested_model 和响应里的 model 字段是否对得上;跑一组能力探针(推理、编码、JSON/Schema 遵循、长上下文哨兵查找),看有没有明显的能力塌陷。对编码这种能解释的任务,它用"可执行验证"------让 Codex 真去改代码、跑验证脚本,比单纯比文本更硬。工具自己也写得很清楚:这能抓出可疑的退化和元数据不一致,但不能从密码学上证明上游就是那个模型。这种克制,是我愿意信它结论的前提。

数据传输安全吗? 底线是 HTTPS 加证书与主机名校验。它的 audit 会在线检查:非本地端点是否走 HTTPS、TLS 握手与主机名校验是否通过、证书有效期、DNS 解析、叶子证书的 SHA-256 指纹与颁发者,以及密钥是不是只从环境变量读、配置里有没有硬编码的凭证头。

它有没有偷改我的请求? 黑盒客户端没法证明网关从不加塞隐藏提示词,于是它插入一组测试标记来收集异常证据:不该被复述的假 API key、假邮箱,必须原样返回的系统完整性令牌,隐藏指令 JSON 探针,还有一个可选的外部 URL 标记(honeytoken),用来看数据有没有被带到带外去访问。再配合一个信号:同样的 prompt,如果网关那侧输入 token 明显高于官方基线,往往意味着被塞了隐藏提示词,或者被包了一层。

稳不稳? 稳定性靠重复请求,不是一次成功的冒烟。它会把每个用例跑多次、测重试行为,并把错误分两类统计:网络错误(超时、TLS、连接失败)和模型调用错误(429、4xx、5xx、响应畸形),再算 P50/P95/P99 延迟、tokens/s 和成功率。报告还建议在一天里不同时段各跑一轮。

有没有偷偷路由降级? 它收集一组黑盒信号:同一请求模型在多次运行里 model 值变了、官方比网关明显更容易通过某用例、同一用例忽过忽败、温度 0 下输出还在漂。这些都当线索,不当判决。

最后它把这些汇成一份带分数的报告,质量、可靠性、性能、成本、安全、运维六个维度加权打分,权重可配,成本归一化到"最便宜的非零方案得 100"。

我把原理摆出来不是为了显摆工具,是想说明一件事:下面对 weytoken 的判断,都来自这套有据可查的检查,不是凭感觉。

二、weytoken 实测

测试目标是 weytoken(官网 api.weytoken.com/ ),API 端点 https://api.weytoken.com/v1,主力跑的是 codex 分组里的 gpt-5.5。分四块说,该夸的夸,该提醒的提醒。

模型有没有被换:对比下来挑不出差

就用前面那套 A/B 对比,配对编码是其中最硬的一条线:5 个编码任务各跑 2 遍,官方一侧和 weytoken 一侧各 10 次。

结果是官方与 weytoken 两边都 10/10 全过,逐任务通过率差 0%,没有任务级别的质量缺口。

我又加了个更难的任务来验证:让 Codex 拿我自己写的几篇技术文章当数据,搭一个静态个人博客网站,配一套自动验收脚本(覆盖数据处理、文章排序、搜索与标签过滤、精选文章、阅读时间、响应式布局等)。官方、weytoken 各跑一遍,两边都通过验收,通过率还是 0% 差。"没质量缺口"这个信号,不止靠一个任务撑着,换个更复杂的活儿也立得住。

同一份 prompt 下,两边各自生成的首屏对比如下:

任务:用几篇真实技术文章当数据,搭一个静态个人博客,带自动验收脚本(数据处理、文章排序、搜索与标签过滤、精选、阅读时间、响应式布局)。

prompt(网站任务) 官方效果 中转效果
用几篇真实技术文章当数据,搭一个静态个人博客,带自动验收脚本(数据处理、文章排序、搜索与标签过滤、精选、阅读时间、响应式布局)

功能上都过了自动验收,设计取向却不一样:官方那版偏浅色、清爽,像规整的技术博客;weytoken 这版偏深色、杂志风,视觉记忆点更强、信息密度略低。这种差异更多是模型当次的发挥,不必过度解读------重点是两边都做出了能用、能过验收的站点。

两个任务、两种难度,在编码这类能验收对错的活儿上,weytoken 给的结果和官方一致,挑不出差。模型这块,至少从实际表现看是稳的。

数据安全:传输层扎实

传输配置审计 10 项全 PASS:走 HTTPS、TLS 1.3 握手通过、证书由 DigiCert 签发且在有效期内(到 2026 年 8 月)、主体是 api.weytoken.com、密钥只从环境变量读、没有硬编码的静态密钥头。传输这一层,达标。

至于内容层会不会被复述、被带外泄漏,这是更深一层的检查,需要专门的探针和退避节奏单独跑一轮,本篇先到传输层为止。真要送私密代码或客户数据上生产,这一层建议自己再认真做一遍。

稳定性:能稳定跑通,速度上有取舍

先说能跑通的:前面那批编码任务,加上后来的博客站任务,真实 Codex 会话全程经 weytoken 跑通、通过验收,没有中途断流。正常使用强度下,它是稳的。

代价主要在速度。还是博客那个任务,weytoken 跑完用了 484.94 秒,官方只用 273.67 秒,多花了两百多秒、约七成时间,期间消耗的 token 也更多。更长的任务更明显:那个功能更密的 dashboard,官方和 weytoken 两边都撞到了运行器 300 秒上限(官方 300s、weytoken 重试 360s),不过两边超时前都把产物做出来了,手动跑验收脚本都能过。所以稳定性这块的结论是:真实活儿能完成,但耗时开销实打实,任务越长越容易触顶,这一条要扣分。

要说明的是,这里说的是整个任务跑完的耗时,不是逐请求的微延迟。另外 weytoken 有每分钟 20 次的限流,这是防滥用的正常设计,高频调用要把它算进去。

价格:旗舰确实便宜,但不是样样都便宜

价格这块数据最干净。工具直接抓 weytoken 公开的 /api/pricing,按它前端同款公式算出每个模型的输入输出价(input = model_ratio × 2 × group_ratio,output = input × completion_ratio),再和官方目录价逐一对比,一共覆盖 37 个模型分组。

便宜的地方很猛,对比官方目录价、取最低可用分组:

  • gpt-5.5:输入 ¥2.4、输出 ¥19.2(每百万 token),相对官方约 −90%;
  • claude-opus-4-8claude-sonnet-4-6:约 −69%;
  • gemini-3.1-pro-preview:输入 −41%、输出 −61%。

但不是全面便宜,有几个反而更贵:

  • deepseek-v4-pro:输入输出都比官方 +42%;
  • gpt-image-2:输出价 +48%;
  • gemini-2.5-flashgemini-3-flash 的部分价位也略高于官方。

所以"便宜"得落到具体模型上看。补两句口径:这里基于"最低可用分组"和工具内置的官方目录价,真实到手价取决于你所在的分组档位;而且这是按调用计费的口径,weytoken 另外还有周卡、月卡、季卡这类订阅,长期重度用的人要按自己的用量另算。

三、weytoken 企业功能

抛开评测单说能力盘子。模型覆盖挺全,Claude、GPT、Gemini、DeepSeek、通义千问、Kimi、智谱等 37 个左右,按 codex 专用、claude 专用、gemini 专用、图像生成等分组组织。

真正让我觉得"这是给团队用的",是它那套企业控制台。它不是把个人 key 简单包一层,而是围绕"可控、可审计、可管权限"做了一整套:

  • 统一额度池加双层配额:企业层有总额度、已用、剩余和实时使用率;往下还能给每个成员设额度上限,给每个令牌设独立配额。花超不了,也能精确归因到人和 key。
  • 模型级权限:能限定某个成员、某个令牌只能用哪些模型。不想让人随便调最贵的模型,这里就能卡。
  • 角色权限(RBAC)和成员管理:邀请成员、分角色、看加入时间和状态,成员上限 50,令牌上限 100。
  • IP 白名单:设置后,企业下所有令牌只能从白名单 IP 访问 API。这条对企业数据安全很实在,等于把 key 泄露的影响面摁住。
  • 全量审计日志:谁、在什么时间、做了什么操作、对象是什么,都留痕,还能按操作类型筛。合规和事后追溯要的就是这个。
  • 用量可观测和导出:消耗明细能按成员、模型、令牌拆,细到每次调用的提示、补全、缓存 token、消耗额度和单次耗时,还有平均 RPM/TPM 与成员排行,支持导出。

这几样组合起来,正好对应企业用中转站最担心的几件事:钱不可控、权限放养、出了事查不到。个人用户可能用不上,但对要给一个团队统一发 key、统一管账的人来说,这套是有意义的。

四、结论

把测下来的东西收一收:

  • 模型真伪:两个不同难度的编码任务(5 个小任务 + 一个完整博客站),weytoken 都和官方一致、挑不出差。
  • 数据安全:传输层(HTTPS、TLS 1.3、有效证书、不硬编码密钥)达标;内容层的更深检查留作专项。
  • 稳定性:真实编码任务都能跑通、通过验收,速度上有取舍------博客任务比官方多花约七成时间(485s vs 274s),长任务两边都会撞运行器时限。
  • 价格:旗舰模型尤其 gpt-5.5 和 Claude 系显著便宜,但少数模型更贵,按模型看。
  • 企业能力:双层配额、模型级权限、IP 白名单、全量审计、用量可观测,面向团队管控这块做得扎实。

适合谁:想用上 Claude、GPT、Gemini 又在意成本、且能接受中转站固有"信任前提"的人,尤其是需要给团队统一管 key、管账、管权限的小团队。注意什么:上生产、或要送真实私密代码和客户数据之前,内容层泄漏这条建议自己用带退避的方式再测一轮,再叠加供应商的数据留存条款、计费对账这些合同层面的东西。黑盒评测能给你证据,但替代不了一纸契约。

这套测评工具还在打磨,计划后面开源。方法和用例这篇都摆出来了,等开源了,你大可自己拿它跑一遍验证。比起信我说的,这才是它存在的意义。

相关推荐
甲维斯1 小时前
Opus4.8 才是真的夯爆了!实测 9个例子表现出众!
前端·人工智能
沈麽鬼1 小时前
豆包?哦不,是我菜包!新手AI全栈实战:Cursor开发复刻AI聊天助手
人工智能·ai编程·vibecoding
木卫二号Coding1 小时前
OpenCloudOS9(RHEL9系 dnf)安装 Hermes-Agent完整教程
人工智能
starsky762381 小时前
基于 Spring AI 构建具备记忆与情绪的多角色 Agent 系统
人工智能·spring·架构
米核AI易山1 小时前
扣子工作流变量传递:6 个致命坑及解法
人工智能·自动化·coze·扣子工作流·米核ai易山
程序员老刘1 小时前
官方俩月没回复的系统Bug,我用AI几分钟破案
ai编程·客户端
Reisentyan2 小时前
[Begin]AI Learn Data Day 0
人工智能·ai·ai全栈