1、MMBench-GUI:跨平台GUI代理的分层评估框架,modelscope

我们很高兴发布MMBench-GUI,这是一个分层、多平台的基准框架和工具箱,用于评估GUI代理。MMBench-GUI包括四个评估级别:GUI内容理解、GUI元素定位、GUI任务自动化和GUI任务协作。我们还提出了集成准确性和效率的效率-质量区域(EQA)指标。MMBench-GUI为评估和指导未来GUI代理能力的发展提供了严格的标准。
数据大小:1.05G
2、 GUIAct/GUIAct-test,modelscope
45G,12.8号提交
3、huggingface
(1)TongUI
https://huggingface.co/datasets/Bofeee5675/GUI-Net-1M
有中文,手机相关操作数据。训练集80万条,570G,需要过滤出需要的数据
GUI-Net-1M is the dataset we keep running the pipeline introduced from TongUI paper. Due to large file size, we have to split image files into parts. To do the extraction of images, please use the following script:

也有基于这个数据训练好的模型:

(2)smolagents/android-control
12.2k 数据量
(3)anamhira/aitw_foundation
39.5K

(4)aitw数据集下载地址