Ragas自动化评测整体后端流程

AI航海家(Ethan)2025-01-01 22:10

生成答案流程

接口输入

助手 ID agent_id
语料库 ID dataset_id
可选的：问题 ID 的数组 questions

流程步骤
1. 根据 agent_id 查询对应 Dify 助手 ID
  - 调用接口，根据传入的 agent_id 获取对应的 dify 助手 ID。
2. 查询所有问题 ID
  - 根据语料库 ID 查询所有相关问题的 ID。
  - 如果传入了特定的问题 ID 数组，则只查询这些特定的问题。
3. 根据问题 ID 查询问题详情
  - 获取每个问题的详细信息
4. 创建测试轮
  - 创建一个新的测试轮，记录当前助手 ID 和语料库 ID，并生成测试轮 ID。
5. **根据 dify 助手 ID 查询 **api_key
  - 使用 dify 助手 ID 查询对应的 api_key，用于后续调用 Dify API。
6. 创建 Celery 任务
  - 将问题详情、api_key 和测试轮 ID 传递给 Celery 任务，进行并发处理。
7. 返回测试轮 id test_run_id

Celery 逻辑

根据问题创建线程
- 为每个问题创建一个线程来处理。目前最大并发 10 个
创建测试轮结果
- 在数据库中创建一个空的测试轮结果条目，并获取其 ID。
根据问题调用 AI 接口返回答案
- 使用 api_key 调用 Dify AI 接口，传入问题并获取 AI 的回答。
根据答案、测试轮结果 ID 修改测试轮结果
- 将 AI 返回的答案更新到对应的测试轮结果中。
错误处理
- 轮询判断每一个任务，将错误任务进行标注
所有问题处理完后修改测试轮 note 字段
- 根据任务整体情况更改 note 字段具体状态（进行中、已完成、出错）

生成评分流程

接口输入

测试轮 ID test_run_id

流程步骤
1. 根据测试轮 ID 获取所有结果 ID
  - 查询指定测试轮中所有的测试结果 ID。
2. 根据结果 ID 列出测试轮结果详情
  - 获取每个结果的详细信息，包括问题、标答、AI 回答、上下文等。
3. 创建 Celery 任务
  - 将测试轮结果详情传递给 Celery 任务，进行并发处理。
4. 任务提交成功
  - { "meg": "提交成功"}

Celery 逻辑

根据测试轮结果详情创建线程
- 为每个测试结果创建一个线程进行评分处理。
创建测试轮评分结果数据
- 在数据库中创建一个空的测试轮评分结果条目，并获取其 ID。
根据详情的 question_id 字段获取标答
- 获取每个问题的标答内容，用于评分参数的构建。
构建评分参数
- 使用问题、标答、AI 回答、上下文等信息构建评分参数。
根据返回的评分细节、测试轮结果 ID、测试轮评分 ID 修改测试轮评分
- 将评分细节更新到对应的测试轮评分结果中。
错误处理
- 轮询判断每一个任务，将错误任务进行标注
所有问题处理完后修改测试轮 note 字段
- 根据任务整体情况更改 note 字段具体状态（进行中、已完成、出错）

重跑答案流程

接口输入

测试轮 ID test_run_id
问题 ID questions
测试论结果 ID test_result_id

流程步骤
1. 根据 agent_id 查询对应 Dify 助手 ID
  - 调用接口，根据传入的 agent_id 获取对应的 dify 助手 ID。
2. 根据问题 ID 查询问题详情
  - 获取每个问题的详细信息
3. **根据 dify 助手 ID 查询 **api_key
  - 使用 dify 助手 ID 查询对应的 api_key，用于后续调用 Dify API。
4. 创建 Celery 任务
  - 将问题详情、api_key 和测试轮 ID 传递给 Celery 任务，进行并发处理。
5. 返回测试轮 id test_run_id

Celery 逻辑

根据问题创建线程
- 为每个问题创建一个线程来处理。目前最大并发 10 个
根据问题调用 AI 接口返回答案
- 使用 api_key 调用 Dify AI 接口，传入问题并获取 AI 的回答。
根据答案、测试轮结果 ID 修改测试轮结果
- 将 AI 返回的答案更新到对应的测试轮结果中。
错误处理
- 轮询判断每一个任务，将错误任务进行标注
所有问题处理完后修改测试轮 note 字段
- 根据任务整体情况更改 note 字段具体状态（进行中、已完成、出错）

重跑评分流程

接口输入

测试轮 ID test_run_id
测试论结果 ID test_result_id
评分结果 ID ragas_score_id

流程步骤
1. 根据测试轮结果 ID 列出测试轮结果详情
  - 获取每个结果的详细信息，包括问题、标答、AI 回答、上下文等。
2. 创建 Celery 任务
  - 将测试轮结果详情传递给 Celery 任务，进行并发处理。
3. 任务提交成功
  - { "meg": "提交成功"}

Celery 逻辑

根据测试轮结果详情创建线程
- 为每个测试结果创建一个线程进行评分处理。
根据详情的 question_id 字段获取标答
- 获取每个问题的标答内容，用于评分参数的构建。
构建评分参数
- 使用问题、标答、AI 回答、上下文等信息构建评分参数。
根据返回的评分细节、测试轮结果 ID、测试轮评分 ID 修改测试轮评分
- 将评分细节更新到对应的测试轮评分结果中。
错误处理
- 轮询判断每一个任务，将错误任务进行标注
所有问题处理完后修改测试轮 note 字段
- 根据任务整体情况更改 note 字段具体状态（进行中、已完成、出错）

上一篇：饺子的 2024 年终总结（前端+生活篇）

下一篇：让每一条数据发光：Grafana 打造的现代化仪表盘

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03Linux下V2Ray安装配置指南 04RedissonClient的配置解析 05在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07BongoCat - 跨平台键盘猫动画工具 08Open-AutoGLM Windows 安装部署教程 09jdk21下载、安装（Windows、Linux、macOS）10【AutoGLM部署】本地私有化部署AI手机Agent