benchmark

dawdo22218 天前
llm·transformer·性能测试·qwen·benchmark·推理引擎
自己动手从头开始编写LLM推理引擎(11)-xLLM的benchmark实现在大型语言模型(LLM)推理系统中,性能评估是确保系统稳定性和效率的关键环节。xLLM提供了一个功能完善的基准测试工具(benchmark),用于全面评估系统在不同负载条件下的性能表现。本文将详细介绍xLLM benchmark工具的设计理念、核心实现、测试策略和性能分析方法,帮助开发者深入理解LLM推理系统的性能评估方法。
一个处女座的程序猿20 天前
人工智能·benchmark·llms
LLMs之Benchmark:《CL-bench: A Benchmark for Context Learn》翻译与解读LLMs之Benchmark:《CL-bench: A Benchmark for Context Learn》翻译与解读
PeterClerk1 个月前
人工智能·python·深度学习·计算机视觉·benchmark·评测
计算机视觉常用指标(Metrics)速查与解释(持续更新)适用范围:分类 / 检测 / 分割 / 跟踪 / 检索 / 图像复原 / 生成评估 / OCR 说明:不同论文/代码实现对细节(阈值、插值方式、忽略类、边界处理等)可能略有差异,使用前建议核对对应 benchmark 的官方实现。
HyperAI超神经2 个月前
人工智能·gpt·ai·openai·benchmark·基准测试·gpt5.2
GPT-5全面领先,OpenAI发布FrontierScience,「推理+科研」双轨检验大模型能力随着模型推理和知识能力的不断提升,更具挑战性的基准测试对于衡量和预测模型加速科学研究的能力至关重要。2025 年 12 月 16 日,OpenAI 推出了旨在衡量专家级科学能力的基准测试 FrontierScience。 根据初步评估,GPT-5.2 在 FrontierScience-Olympiad 和 Research 任务中分别得分 25% 和 77%,领先于其他前沿模型。
一个处女座的程序猿4 个月前
benchmark·rag·rteb
LLMs之RAG之Benchmark:面向真实场景的检索嵌入基准(RTEB)—理论、设计与实践指南LLMs之RAG之Benchmark:面向真实场景的检索嵌入基准(RTEB)—理论、设计与实践指南导读:本文整体呈现了 RTEB 作为一项面向检索嵌入模型的新标准基准的全貌。从“为什么需要新基准”出发,指出了现有评测的缺陷;又在“推出 RTEB”中说明了设计目标;通过“混合策略”展示了其核心方法创新;“面向真实世界领域构建”强调了其覆盖的语言与领域广度;“社区协作”体现了开放发展路径;最后“局限与未来”则展现了自我反思与演进方向。
聚梦小课堂4 个月前
人工智能·深度学习·图像生成·benchmark·imagenworld
ComfyUI Blog: ImagenWorld 发布:面向图像生成与编辑的真实世界基准测试数据集comfyui官方blog 10月17发了一篇blog,原文地址:https://blog.comfy.org/p/introducing-imagenworld
schedule___1 年前
c++·visual studio·benchmark
visual studio 中导入 benchmark1.visual studio 中导入 benchmark.lib Shlwapi.lib这两个库 2.预处理宏 BENCHMARK_STATIC_DEFINE
AlfredZhao1 年前
benchmark·23ai·tpc-h·in-memory
TPC-H 研究和优化尝试TPC-H测试提供了8张表,最近做这个测试,记录下过程中的关键点备忘。TPC-H 属于 雪花型查询(Snowflake Schema)。
AlfredZhao1 年前
oracle·benchmark·23ai·tpc-h
Oracle 23ai TPC-H 执行情况TPC-H是一个广泛使用的基准测试,用于评估数据库系统在决策支持系统(DSS)场景下的性能。在昨天的文章中,我们完成了《Oracle 23ai TPC-H 测试环境部署》,本文将继续记录在未做任何优化场景下,这22条SQL的真实执行情况。
AlfredZhao1 年前
benchmark·23ai·tpc-h
Oracle 23ai TPC-H 测试环境部署最近,我在 Oracle Database 23ai 上进行了 TPC-H 100GB 测试,并整理了完整的实施步骤和优化经验。如果你也想评估 Oracle 数据库在决策支持场景下的性能,可以参考我的步骤快速上手。
cooldream20091 年前
elasticsearch·docker·华为云·benchmark
828华为云征文 | 在华为云上通过Docker容器部署Elasticsearch并进行性能评测目录前言1. 华为云X实例介绍及优势1.1 柔性算力1.2 vCPU和内存的灵活配比1.3 成本效益与性能
a187927218312 年前
golang·go·benchmark·go 测试·go 性能测试分析·benchstat
Go-知识测试-性能测试分析工具-benchstat传送门:Go-知识测试-性能测试benchmark 测试是实际项目中经常使用的测试方法,下面是一个执行的结果
dingdingfish2 年前
linux·arm·cpu·intel·benchmark·amd
一个计算密集小程序在不同CPU下的表现本文比较了几款CPU对同一测试程序的比较结果,用的是Oracle公有云OCI上的计算实例,均分配的1 OCPU,内存用的默认值,不过内存对此测试程序运行结果不重要。
johnny2332 年前
benchmark
基准测试理论全面介绍:IOmeter、Stream、Whetstone、Dhrystone、SPEC、TPC、Linpack计算机硬件的不断的升级带来系统处理性能持续的提高,如何对平台或系统的性能作出正确的判断就是性能测试的主要目标。
独上西楼影三人2 年前
数据库·mysql·benchmark·基准测试·sysbench·oltp
【SysBench】OLTP 基准测试示例本文采用 MySQL 沙盒实例作为测试目标,使用 sysbench-1.20 对其做 OLTP 基准测试。
独上西楼影三人2 年前
linux·benchmark·基准测试·sysbench
【SysBench】深度优化文件 I/O上一篇对 sysbench fileio 进行了一定的测试优化,得到的结论与预期不符,本文将尝试查找问题以及进一步优化。
独上西楼影三人2 年前
linux·运维·服务器·benchmark·基准测试·sysbench
【SysBench】Linux 安装 sysbench-1.20安装目的是为了对 MySQL 8.0.x 、PostgreSQL 进行基准测试。sysbench 是一个可编写脚本的多线程基准测试工具,基于 LuaJIT 。 它最常用于数据库基准测试,但也可以 用于创建任意不涉及数据库服务器的复杂工作负载。
独上西楼影三人2 年前
benchmark·基准测试·sysbench
【SysBench】sysbench-1.20 命令速查表The general command line syntax for sysbench is:testname is an optional name of a built-in test (e.g. fileio, memory, cpu, etc.), or a name of one of the bundled Lua scripts (e.g. oltp_read_only), or a path to a custom Lua script. If no test name is speci
丶路长2 年前
linux·benchmark·模拟器
uiCA模拟器和bHive benchmark的使用github地址:GitHub - andreas-abel/uiCA: uops.info Code Analyzer
HERODING772 年前
人工智能·gpt·语言模型·llm·agent·benchmark·智能体
【论文精读】GAIA: A Benchmark for General AI Assistants一篇来自Meta、HuggingFace、AutoGPT联合投稿的Agent Benchmark的工作,为当前百花齐放的Agent领域带来了评测的标准。这篇工作详细介绍了GAIA的设计理念,展望了GAIA的未来,讨论了当前GAIA的不足,细读下来可以看到这些大佬们对于这个当前火热领域的热切期待。