ChainForge:衡量Prompt性能和模型稳健性的GUI工具包

ChainForge是一个用于构建评估逻辑来衡量模型选择,提示模板和执行生成过程的GUI工具包。ChainForge可以安装在本地,也可以从chrome浏览器运行。

ChainForge可以通过聊天节点对多个对话可以使用不同的llm并行运行。可以对聊天消息进行模板化,并且可以在此过程中为每个节点更新和更改底层LLM。

聊天节点对于会话接口的生成审计非常重要。可以检查每个节点以检测提示漂移,LLM漂移等。

下图显示了如何通过表格数据输入来定义预期响应或真值响应。

下面的文本字段节点用七个容器。提示符以文本字段为前提;其次是聊天节点。在聊天节点中,可以使用以前使用的LLM,也可以定义新的LLM。

对于每个聊天节点,可以定义一个检查节点来查看LLM响应。

响应选择器有一个分组列表或表的选项,可以在下面看到所引用的每个模型的输出。

下面的LLM Scorer,通过使用评分提示来使用单个模型对其他LLM回答进行评分,

复制代码
 Respond with 'true' if the text is positive, and respond with 'false' if the text is negative.

总之,ChainForge是一个用于对大型语言模型(LLM)提示进行测试的开源可视化编程环境,用于分析和评估LLM响应,功能包括:快速有效地同时查询多个LLM,测试提示的想法和变化;比较不同提示排列和模型的响应质量,选择最适合你的用例的提示和模型。

官网的DEMO在这里:

https://avoid.overfit.cn/post/f43da49cc8794b969fe9cf1251acfbdc

相关推荐
狮子座明仔1 分钟前
PRL:让大模型推理不再“开盲盒“——过程奖励学习的理论与实践
人工智能·深度学习·学习·机器学习·语言模型
博思云为3 分钟前
企业级智能PPT生成:Amazon云+AI驱动,全流程自动化提效
人工智能·语言模型·云原生·数据挖掘·云计算·语音识别·aws
龙山云仓4 分钟前
No126:AI中国故事-仓颉:智能的符号编码、知识压缩与文明记忆
大数据·人工智能·深度学习·机器学习·计算机视觉·重构
柠檬丶抒情6 分钟前
Rust深度学习框架Burn 0.20是否能超过python?
python·深度学习·rust·vllm
reesn9 分钟前
celery 使用说明
python
莱昂纳多迪卡普利奥14 分钟前
LLM学习指南(四)—— 预训练语言模型(PLM)
人工智能·语言模型·自然语言处理
ValhallaCoder17 分钟前
Day50-图论
数据结构·python·算法·图论
好好学操作系统19 分钟前
notion+excel自动创建表格| 了解了notion api
数据库·python·oracle·excel·notion
一晌小贪欢20 分钟前
用 PyQt5 做一个「批量目录重命名」工具,并打包成带图标的 EXE
开发语言·驱动开发·python·python基础·python小白
LDG_AGI21 分钟前
【机器学习】深度学习推荐系统(二十九):X 推荐算法多样性打散机制详解
人工智能·深度学习·算法·机器学习·推荐算法