技术栈

pixmo

m0_65010824
2 小时前
论文阅读·人工智能·语言模型·开源vlm·高质量多模态数据集·molmo·pixmo
Molmo&PixMo:全开源视觉语言模型的突破之路在当前视觉语言模型(VLM)领域,GPT-4o、Gemini 1.5 等专有模型占据性能巅峰,但封闭的权重、数据与代码严重阻碍了科研社区的探索。多数开源 VLM 要么性能落后,要么依赖专有模型生成的合成数据,本质上是对封闭模型的蒸馏,缺乏 "从零构建高性能 VLM" 的基础认知。
我是有底线的