benchmark

大模型基础之评测评测，也叫评估，基准测试，Benchmark，有综述性论文值得一读。大模型的评测难点在于其能力空间的无限维度性。传统NLP模型只需在特定任务上打分（如情感分析准确率），但LLM声称具备通用能力，带来以下根本性挑战：

大模型测评之：CLUE、SuperCLUE、GLUE、SuperGLUE参考大模型基础之评测，本文专注于介绍CLUE、GLUE。官网，The Chinese Language Understanding Evaluation缩写，中文语言理解基准，对标GLUE，开源（GitHub，4.3K Star，544 Fork），论文。

大模型测评框架：promptfoo、Evals、LM-Evaluation-Harness、HELM、Guardrails在大模型基础之评测里概述性介绍评测相关的理论体系。本文专注于评测框架，包括开源和闭源两大类。官网，面向工程师的开源（GitHub，21.7K Star，1.9K Fork）LLM评测工具，CI/CD集成友好，支持A/B测试不同Prompt方案。

智能体（Agent）开发与部署项目项目描述：基于LangChain框架构建可调度、可扩展的大模型智能体，结合 tool 工具调用、YAML 配置体系、状态机流转、API Key 调用大模型，实现多步骤自动化任务执行与复杂逻辑交互。

自己动手从头开始编写LLM推理引擎(11)-xLLM的benchmark实现在大型语言模型（LLM）推理系统中，性能评估是确保系统稳定性和效率的关键环节。xLLM提供了一个功能完善的基准测试工具（benchmark），用于全面评估系统在不同负载条件下的性能表现。本文将详细介绍xLLM benchmark工具的设计理念、核心实现、测试策略和性能分析方法，帮助开发者深入理解LLM推理系统的性能评估方法。

一个处女座的程序猿

LLMs之Benchmark：《CL-bench: A Benchmark for Context Learn》翻译与解读LLMs之Benchmark：《CL-bench: A Benchmark for Context Learn》翻译与解读

计算机视觉常用指标（Metrics）速查与解释（持续更新）适用范围：分类 / 检测 / 分割 / 跟踪 / 检索 / 图像复原 / 生成评估 / OCR 说明：不同论文/代码实现对细节（阈值、插值方式、忽略类、边界处理等）可能略有差异，使用前建议核对对应 benchmark 的官方实现。

HyperAI超神经

GPT-5全面领先，OpenAI发布FrontierScience，「推理+科研」双轨检验大模型能力随着模型推理和知识能力的不断提升，更具挑战性的基准测试对于衡量和预测模型加速科学研究的能力至关重要。2025 年 12 月 16 日，OpenAI 推出了旨在衡量专家级科学能力的基准测试 FrontierScience。根据初步评估，GPT-5.2 在 FrontierScience-Olympiad 和 Research 任务中分别得分 25% 和 77%，领先于其他前沿模型。

一个处女座的程序猿

LLMs之RAG之Benchmark：面向真实场景的检索嵌入基准(RTEB)—理论、设计与实践指南LLMs之RAG之Benchmark：面向真实场景的检索嵌入基准(RTEB)—理论、设计与实践指南导读：本文整体呈现了 RTEB 作为一项面向检索嵌入模型的新标准基准的全貌。从“为什么需要新基准”出发，指出了现有评测的缺陷；又在“推出 RTEB”中说明了设计目标；通过“混合策略”展示了其核心方法创新；“面向真实世界领域构建”强调了其覆盖的语言与领域广度；“社区协作”体现了开放发展路径；最后“局限与未来”则展现了自我反思与演进方向。

聚梦小课堂

ComfyUI Blog: ImagenWorld 发布：面向图像生成与编辑的真实世界基准测试数据集comfyui官方blog 10月17发了一篇blog，原文地址：https://blog.comfy.org/p/introducing-imagenworld

visual studio 中导入 benchmark1.visual studio 中导入 benchmark.lib Shlwapi.lib这两个库 2.预处理宏 BENCHMARK_STATIC_DEFINE

TPC-H 研究和优化尝试TPC-H测试提供了8张表，最近做这个测试，记录下过程中的关键点备忘。TPC-H 属于雪花型查询（Snowflake Schema）。

Oracle 23ai TPC-H 执行情况TPC-H是一个广泛使用的基准测试，用于评估数据库系统在决策支持系统（DSS）场景下的性能。在昨天的文章中，我们完成了《Oracle 23ai TPC-H 测试环境部署》，本文将继续记录在未做任何优化场景下，这22条SQL的真实执行情况。

Oracle 23ai TPC-H 测试环境部署最近，我在 Oracle Database 23ai 上进行了 TPC-H 100GB 测试，并整理了完整的实施步骤和优化经验。如果你也想评估 Oracle 数据库在决策支持场景下的性能，可以参考我的步骤快速上手。

828华为云征文 | 在华为云上通过Docker容器部署Elasticsearch并进行性能评测目录前言1. 华为云X实例介绍及优势1.1 柔性算力1.2 vCPU和内存的灵活配比1.3 成本效益与性能

Go-知识测试-性能测试分析工具-benchstat传送门：Go-知识测试-性能测试benchmark 测试是实际项目中经常使用的测试方法，下面是一个执行的结果

一个计算密集小程序在不同CPU下的表现本文比较了几款CPU对同一测试程序的比较结果，用的是Oracle公有云OCI上的计算实例，均分配的1 OCPU，内存用的默认值，不过内存对此测试程序运行结果不重要。

基准测试理论全面介绍：IOmeter、Stream、Whetstone、Dhrystone、SPEC、TPC、Linpack计算机硬件的不断的升级带来系统处理性能持续的提高，如何对平台或系统的性能作出正确的判断就是性能测试的主要目标。

独上西楼影三人

【SysBench】OLTP 基准测试示例本文采用 MySQL 沙盒实例作为测试目标，使用 sysbench-1.20 对其做 OLTP 基准测试。

独上西楼影三人

【SysBench】深度优化文件 I/O上一篇对 sysbench fileio 进行了一定的测试优化，得到的结论与预期不符，本文将尝试查找问题以及进一步优化。