公共资源速递
4 个公共数据集:
-
SMOL 多语言翻译平行数据集
-
DeepCrack 基础设施裂缝检测数据集
-
chi-bench 医疗智能体基准评测数据集
-
World Air Pollution and AQI 全球空气质量与 AQI 数据集
5 个公共教程:
-
HiDream-O1-Image 图像生成系统
-
X2SAM:统一图像与视频任意分割模型
-
LocateAnything-3B:视觉语言定位模型
-
MiniCPM5-1B:面向端侧的高效 1B 大语言模型
-
IBM Granite 4.1 8B:支持对话、编码、RAG 及工具调用
访问官网立即使用: openbayes.com
公共数据集
1. SMOL 多语言翻译平行数据集
SMOL 是由 Google 于 2025 年发布的专业翻译数据集,该数据集收录了阿姆哈拉语、斯瓦希里语、阿法尔语等 221 种语料、标注数据稀缺的小语种 / 地方语言的专业翻译文本,覆盖广泛的语言对,包含专业翻译与志愿者贡献的文本,并针对部分语言加入了医疗领域垂直数据与事实性标注。
2. DeepCrack 基础设施裂缝检测数据集
DeepCrack 是由武汉大学计算机视觉与遥感实验室提供的基础设施裂缝检测基准数据集,该数据集包含 RGB 裂缝图像及其对应的像素级二值标注掩码,所有标注均为人工逐像素标注,适用于监督式语义分割任务训练,并且该数据集已按标准结构划分为训练集与测试集,每张图像均对应一个同名 mask 文件。

3. chi-bench 医疗智能体基准评测数据集
chi-bench 是由 Actava AI 于2026 年发布的医疗智能体评测数据集,该数据集构建了一个高保真医疗业务仿真环境,集成 20 个通过 MCP(Model Context Protocol)开放接口的医疗应用系统并提供包含 1,279 份医疗运营文档的知识库,评测场景覆盖美国医疗体系中的预授权管理(Prior Authorization)、医保 / 保险方利用率 Citation 管理(Utilization Management)和人群护理管理(Population Care Management)三大领域。
4. World Air Pollution and AQI 全球空气质量与 AQI 数据集
World Air Pollution and AQI 是一份面向研究与数据分析的全球空气质量数据集,该数据集包含 2014 至 2025 年的月度城市级观测数据,总计 331,920 条记录,覆盖全球 5 大洲、中国、美国、英国、法国、德国、日本、韩国等 24 个国家。其中包括 24 个特征,包括空气污染物浓度、空气质量指数、气象变量以及社会环境指标。
公共教程
1. HiDream-O1-Image 图像生成系统
HiDream-O1-Image 是一个原生的统一图像生成基础模型,于 2026 年由 HiDream.ai 团队推出。模型基于像素级统一 Transformer(UiT)架构构建。与传统模型不同,它不依赖外部 VAE 或分离的文本编码器,而是在单一共享的 Token 空间中原生编码像素和文本。

2. X2SAM:统一图像与视频任意分割模型
X2SAM 由中山大学、鹏城实验室和美团团队于 2026 年发布,是面向图像与视频统一分割场景的多模态大模型。官方实现同时支持图像聊天、视频聊天、通用分割、指代表达分割、推理分割、GCG 分割、交互分割和视觉 grounding 分割,并通过同一个 Web Demo 暴露这些能力。

3. LocateAnything-3B:视觉语言定位模型
LocateAnything-3B 由 NVIDIA 于 2026 年发布,是 Eagle VLM 系列中的 3B 参数视觉语言定位模型,面向图像与视频中的开放目标检测、指代表达定位、OCR 文本定位、GUI 元素定位和 pointing 等任务。该模型的核心特点是 Parallel Box Decoding:它将完整边界框坐标作为结构化块并行预测,而不是逐 token 自回归生成坐标,从而在保持几何一致性的同时提升定位吞吐。

4. MiniCPM5-1B:面向端侧的高效 1B 大语言模型
MiniCPM5-1B 是 OpenBMB 团队发布的 MiniCPM5 系列首个模型,面向端侧部署和资源受限场景,采用 1B 参数稠密 Transformer 架构,在同尺寸开源模型中达到 SOTA 水平,尤其擅长 Agentic 工具调用、代码生成和高难推理任务。

5. IBM Granite 4.1 8B:支持对话、编码、RAG 及工具调用
Granite 4.1 语言模型是由 IBM 于 2026 年推出的新一代开源基础模型系列,涵盖 3B、8B 和 30B 三种规模的密集解码器架构。其中 Granite 4.1 8B 作为该系列中的高效版本,在保持轻量级参数规模的同时,实现了企业级应用所需的卓越性能。该模型原生支持多语言能力、广泛的编码任务、检索增强生成(RAG)、工具使用以及结构化 JSON 输出,为落地场景提供了强大的技术保障。
