涵盖 OCR 与多轮对话:1.3B 端侧多模态模型 MiniCPM-V-4.6 正式发布;百万级智能体数据集 AgentTrove 开源!包含代码修复及数学求解

公共资源速递

4 个公共数据集:

* VisCoR-55K 视觉推理数据集

* AgentTrove 智能体交互轨迹数据集

* MemLens 多模态长上下文基准数据集

* LongBlocks 长上下文多语言问答数据集

2 个公共教程:

* Magic-resume:AI 驱动简历编辑器

* MiniCPM-V-4.6:端侧高效多模态视觉语言模型

访问官网立即使用: openbayes.com

公共数据集

1. VisCoR-55K 视觉推理数据集

VisCoR-55K 是一个高质量视觉推理数据集,包含约 55,000 个视觉推理样本,每个样本都利用对比样本生成相应的推理过程,涵盖通用、推理、数学、图表及 OCR 五大类别的高质量视觉推理数据集,旨在促进视觉语言模型在可信且稳健的视觉推理方面的研究。

在线使用:

go.openbayes.com/qB1mG

数据集示例

2. AgentTrove 智能体交互轨迹数据集

AgentTrove 是由 OpenThoughts-Agent 团队发布的大规模开源智能体交互轨迹数据集。该数据集包含 1,696,847 行数据,源自 219 个数据集,涵盖代码修复、Shell 脚本编写、数学问题解决、编程竞赛及通用计算机使用等任务领域。

在线使用:

go.openbayes.com/OLvc5

3. MemLens 多模态长上下文基准数据集

MemLens 是一个用于评估视觉语言模型长程对话记忆的基准数据集。该数据集共包含 789 道题目,涵盖 5 种评估类型:信息提取、知识更新、时序推理、多会话推理与拒绝回答(Abstention**),并提供 4 个上下文长度配置(32K / 64K / 128K / 256K)。

在线使用:

go.openbayes.com/5qjwC

4. LongBlocks 长上下文多语言问答数据集

LongBlocks 是由里斯本大学等机构于 2026 年发布一个长上下文多语言合成数据集。该数据集包含约 19.4 万条长上下文问答示例,涵盖书籍、网页文本、Wiki 百科、arXiv 论文、编程代码及社区问答等长文档语料。

在线使用:

go.openbayes.com/2Rpap

公共教程

1. Magic-resume:AI 驱动简历编辑器

Magic Resume 是由 Siyue 于 2025 年开源的免费在线 AI 简历编辑器。目标是让用户无需复杂排版工具即可快速生成专业简历。它支持实时预览、自动保存、本地存储、自定义主题、暗色模式、响应式布局以及 PDF 导出,用户可以在编辑区填写个人信息、教育经历、项目经历、工作经历等模块,并即时查看最终简历效果。

在线运行:

go.openbayes.com/GeUIm

项目示例

2. MiniCPM-V-4.6:端侧高效多模态视觉语言模型

MiniCPM-V-4.6 是由 OpenBMB** 团队与清华大学自然语言处理实验室于 2026 年联合发布的高效端侧多模态视觉语言模型。模型聚焦于图像理解、视频理解、视觉问答、OCR 与多轮对话场景。即使在计算资源受限的环境中,它也能高效处理图像问答、短视频摘要、UI 截图理解、文档 OCR 解析及多轮多模态交互等核心任务。

在线运行:

go.openbayes.com/IUhTv

项目示例

相关推荐
Coffeeee2 分钟前
Prompt要花心思写,与 AI 对话的七个技巧
人工智能·aigc·ai编程
蝎子莱莱爱打怪34 分钟前
Claude Code 官宣新升级:子智能体默认后台跑,你边聊它边干活
人工智能
武子康39 分钟前
调查研究-206 DeepSeek DSpark 深度解析:大模型推理加速,正在从“模型能力”转向“系统工程”
人工智能·agent·deepseek
甲维斯1 小时前
最佳work模型sonnet5来了,直接就能用!
人工智能
IT_陈寒1 小时前
React hooks 闭包陷阱把我的状态吃掉了,原来问题出在这里
前端·人工智能·后端
冬奇Lab14 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab14 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩15 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程