最先进llama.cpp量化方法PK，APEX vs UD_XL，在 Qwen3.6-35B-A3B 中爆发！ 2026年4月

1. 抓眼球👀

哈哈哈😄，我承认是在抓眼球。只有两个模型的测试，没有测试其他尺寸的模型了。

2. 前言

最近出了新的量化方法，APEX，看着似乎小了许多，并且据说性能不错。我很想知道性能有多好。

2.1 测试环境，结果可复现

测试环境：2026年4月20日左右的 llama-cpp 主线版本，自己编译

CUDA 13.1

incus Debian 系统容器

RTX 3090 + RTX 4070 ti super

驱动版本：595.58.03

3. 快速

没想一测，就发现 UD_XL 量化的问题，发现一个任务能力明显受到损害。APEX 能力保留更好。

并且 APEX 速度更快，110 token/s

UD-Q6_K_XL 速度大约为 98 token/s

APEX 相对还更小，大小为 23.9G

UD-Q6_K_XL 大小为 29.7G

对于没有出问题的第一题和第二题，两个模型都答得很好。思考的长度也比较接近，但是似乎 APEX 的回答要稍微长一点点。

4. 测试方法

测试方法比较简单，我让 DeepSeek 专家模式出3道题，专门用来测试量化模型的回答，然后再让 DeepSeek 分析答案，看看有没有问题。

4.1 测试题目

题目1

复制代码

甲、乙、丙、丁四人在讨论一本书的归属。
甲说：这本书要么是乙的，要么是丁的。
乙说：这本书不是我的，也不是丙的。
丙说：这本书只能是甲的。
丁说：甲和丙都在说谎。
已知只有一个人说了真话，且书属于四人中的某一个。
请问书是谁的？请一步步写出推理过程。

测试目标

复制代码

考察重点：
逻辑链长度：需要保持4个条件同时激活并进行真值表推演。
抗干扰能力：量化模型容易在(A xor B)这类复合逻辑中因置信度下降而选错分支。
自洽性：观察最后结论是否与前面的推理条件矛盾（量化模型有时会出现"推着推着忘了前提"的情况）。

题目2

复制代码

一个边长为1的正方形，以它的四个顶点为圆心，以1为半径画四个四分之一圆，这些圆弧在正方形内部围成一个封闭的区域（类似镜片形状）。
请计算这个封闭区域的精确面积，结果用带根号和π的表达式表示（例如 aπ - b√c 的形式），不要使用近似小数。

测试目标

复制代码

考察重点：
数值表示精度：量化模型（尤其是INT4）在处理√3、π这类符号与具体算术运算时，容易因激活值范围压缩产生微小扰动，可能导致最后系数出错。
中间量保留：此题需要计算两个弓形面积并利用对称性，中间涉及π/3和√3/4，量化后的KV Cache或注意力分数若丢失细节，常表现为漏掉√3项。

题目3

复制代码

请严格按以下规则处理一段文本：

将文本中所有的数字替换为其英文单词（例如 5 变成 five），但如果这个数字后面紧跟单位 cm，则保留数字不变但把 cm 改成 centimeters。

把文中所有形容词顺序反转（比如 a big red apple 改为 a red big apple）。

完成以上两步后，输出 步骤2处理后的文本长度（字符数），以及 第一步中一共替换了多少个数字（不含单位前的数字）。

待处理文本：The room is 23 cm wide and has 2 small blue chairs and 1 old wooden table.

测试目标

复制代码

多步指令的栈保持：量化模型容易出现"做了第三步忘了第一步的条件分支"。
细节区分能力：23 cm中的23和单独出现的2、1需要不同处理------这是量化信息丢失的高发区（模型可能把所有数字都替换了单词）。
自我校验：最后要求数数，若前面替换错了，最后统计也会错。对比原版和量化版的统计数字能直接看出劣化程度。

5. 模型参数

5.1 需注意参数：

-- 设定温度为0，贪心采样，模仿之前的人测试 qwen3.5 27B 模型结果发现 27B 模型超强

-- temp=0

-- 保留思考的模式

-- "preserve_thinking":true

5.2 启动参数：

模型1

复制代码

llama-server --model Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf --mmproj mmproj-F16.gguf --top-p 0.95 --min-p 0.00 --top-k 20 --reasoning on --ctx-size 262144 --temp 0. --parallel 1 --chat-template-kwargs '{"preserve_thinking":true}'

模型2

复制代码

llama-server --model Qwen3.6-35B-A3B-APEX-I-Balanced.gguf --mmproj mmproj-F16.gguf --top-p 0.95 --min-p 0.00 --top-k 20 --reasoning on --ctx-size 262144 --temp 0. --parallel 1 --chat-template-kwargs '{"preserve_thinking":true}'