🚀AI评测这么玩——使用开源评测引擎eval-engine快速实现AI评测

开源啦!欢迎大家Star&Fork,基于Java的开源评测引擎eval-engine:gitee.com/skeletron20...

介绍

eval-engine 是一个基于Java的评测引擎,功能包括:评测数据加载、评测接口调用、结果评估、结果上报。

  • 评测数据加载:支持加载评测数据,已实现从本地或者远程Excel文件加载数据,也可以扩展DataLoader类实现自定义的评测数据加载。
  • 评测接口调用:支持调用评测接口,获取评测结果,已实现调用Http流式&非流式接口调用,也可扩展ApiCompletion类实现自定义的接口调用。
  • 结果评估:支持对评测结果进行评估,没有实现任何评估其,需要扩展Scorer类实现自定义的评估器。
  • 结果上报:支持将评测结果上报到指定的数据源,已实现导出结果到本地Excel,可扩展Reporter类实现自定义的结果上报。

快速入门

引入依赖

xml 复制代码
<dependency>
    <groupId>io.gitee.skeletron2011</groupId>
    <artifactId>eval-engine</artifactId>
    <version>0.0.1</version>
</dependency>

快速实现一个评测

java 复制代码
import org.evaltool.evalengine.eval.model.ApiCompletionResult;
import org.evaltool.evalengine.eval.model.DataItem;
import org.evaltool.evalengine.eval.model.InputData;
import org.evaltool.evalengine.eval.model.ScorerResult;
import org.evaltool.evalengine.eval.node.api.ApiCompletion;
import org.evaltool.evalengine.eval.node.dataloader.DataLoader;
import org.evaltool.evalengine.eval.node.reporter.Reporter;
import org.evaltool.evalengine.eval.node.scorer.Scorer;
import org.evaltool.evalengine.workflow.WorkflowBuilder;
import org.testng.annotations.Test;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class EvalTest {

    @Test
    public void test() {
        WorkflowBuilder builder = new WorkflowBuilder();

        // 评测数据集加载器
        DataLoader dataLoader = new DataLoader() {
            @Override
            public List<InputData> prepareDataList() {
                List<InputData> inputDatas = new ArrayList<>();
                inputDatas.add(new InputData(new HashMap<>(Map.of("query", "hello, world!"))));
                return inputDatas;
            }
        };

        // 接口调用器
        ApiCompletion apiCompletion = new ApiCompletion() {
            @Override
            protected ApiCompletionResult invoke(DataItem dataItem) {
                return new ApiCompletionResult(new HashMap<>(Map.of("reply", "hi!")));
            }
        };

        // 评估器
        Scorer scorer = new Scorer("评估器测试") {
            @Override
            public ScorerResult eval(DataItem dataItem) {
                return new ScorerResult("评估指标1", 1.0, "通过", null);
            }
        };

        // 结果上报器
        Reporter reporter = new Reporter() {
            @Override
            protected void report(List<DataItem> items) {
                items.forEach(System.out::println);
            }
        };

        // 构建&执行评测工作流
        builder.addNodes(dataLoader, apiCompletion, scorer, reporter)
                .addDependency(dataLoader, apiCompletion)
                .addDependency(apiCompletion, scorer)
                .addDependency(scorer, reporter).build().execute();
    }
}

技术文档

gitee.com/skeletron20...

评测相关资料

相关推荐
索荣荣7 小时前
Java Session 全面指南:原理、应用与实践(含 Spring Boot 实战)
java·spring boot·后端
千寻技术帮8 小时前
10333_基于SpringBoot的家电进存销系统
java·spring boot·后端·源码·项目·家电进存销
dear_bi_MyOnly8 小时前
【多线程——线程状态与安全】
java·开发语言·数据结构·后端·中间件·java-ee·intellij-idea
小信丶10 小时前
@EnableTransactionManagement注解介绍、应用场景和示例代码
java·spring boot·后端
To Be Clean Coder10 小时前
【Spring源码】createBean如何寻找构造器(四)——类型转换与匹配权重
java·后端·spring
-孤存-10 小时前
SpringBoot核心注解与配置详解
java·spring boot·后端
2301_8187320611 小时前
项目启动报错,错误指向xml 已解决
xml·java·数据库·后端·springboot
小王不爱笑13212 小时前
SpringBoot 整合 Ollama + 本地 DeepSeek 模型
java·spring boot·后端
短剑重铸之日13 小时前
《设计模式》第七篇:适配器模式
java·后端·设计模式·适配器模式
树码小子14 小时前
SpringIoC & DI (1):IOC介绍 & Spring IoC使用 & DI
java·后端·spring