智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新

伴随着大模型开发和应用的火热发展,作为大模型核心基础组件的 Embedding 重要性愈发凸显。智源于一月前发布的开源可商用中英文语义向量模型 BGE(BAAI General Embedding)在社区收获颇高关注度,Hugging Face 累计下载量达到数十万。当前,BGE 快速迭代推出 1.5 版本并公布多项更新,其中,BGE 首次开源 3 亿条大规模训练数据,帮助社区训练同类模型,推动该领域技术发展。

3 亿中英向量模型训练数据开放

业界语义向量模型训练数据首次开源,达 3 亿中英文数据。

BGE 的出色能力很大程度上源于其大规模、多样化的训练数据。此前,业界同行鲜有发布同类数据集。在本次更新中,智源首次将 BGE 的训练数据向社区予以开放,为推动此类技术进一步发展打下了基础。

此次发布的数据集 MTP 由总计 3 亿条中英文关联文本对构成;其中,中文记录达 1 亿条,英文数据达 2 亿条。数据收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等语料,经过必要的采样、抽取、清洗获得。

详细细节请参考 Data Hub:data.baai.ac.cn

MTP 为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供重要基础。

响应开发者社区,BGE 功能升级

基于社区反馈,BGE 在其 1.0 的版本之上进行了进一步优化,其表现更加稳健、出色。具体升级如下:

  • 模型更新。BGE-*-zh-v1.5 缓解了相似度分布问题,通过对训练数据进行过滤,删除低质量数据,提高训练时温度系数 temperature 至 0.02,使得相似度数值更加平稳 。

  • 新增模型。开源 BGE-reranker 交叉编码器模型,可更加精准找到相关文本,支持中英双语。不同于向量模型需要输出向量,BGE-reranker 直接文本对输出相似度,排序准确度更高,可用于对向量召回结果的重新排序,提升最终结果的相关性。

  • 新增功能。BGE1.1 增加难负样本挖掘脚本,难负样本可有效提升微调后检索的效果;在微调代码中增加在微调中增加指令的功能;模型保存也将自动转成 sentence transformer 格式,更方便模型加载。

值得一提的是,日前,智源联合 Hugging Face 发布了一篇技术报告,报告提出用 C-Pack 增强中文通用语义向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》

链接:arxiv.org/pdf/2309.07...

在开发者社区收获高热度

BGE 发布自以来受到大模型开发者社区关注,目前 Hugging Face 累计下载量达到数十万,且已被 LangChain、LangChain-Chatchat、llama_index 等知名开源项目集成。

Langchain 官方、LangChain 联合创始人兼首席执行官 Harrison Chase、Deep trading 创始人 Yam Peleg 等社区大 V 对 BGE 表示关注。

坚持开源开放,促进协同创新,智源大模型技术开体系 FlagOpen BGE 新增 FlagEmbedding 新版块,聚焦于 Embedding 技术和模型,BGE 是其中明星开源项目之一。FlagOpen 致力于打造大模型时代的 AI 技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。

© THE END

相关推荐
GOWIN革文品牌咨询几秒前
机器人企业品牌语言体系怎么搭建:一句话定位、产品逻辑与解决方案表达
人工智能·机器人
techdashen2 分钟前
Unweight:Cloudflare 如何在不损失精度的情况下把大模型压缩 22%
网络·人工智能
前端不太难2 分钟前
AI 能力如何变成鸿蒙 App 的基础设施
人工智能·状态模式·harmonyos
龙山云仓6 分钟前
无忧智脑-让企业拥抱智能,让管理回归简单
人工智能·深度学习·机器学习
2501_933329559 分钟前
Infoseek数字公关AI中台技术解析:基于DeepSeek+NLP的全网舆情监测与智能处置系统
人工智能·架构·数据库开发
QFIUNE10 分钟前
【文献阅读】化学空间边缘的分子深度学习
论文阅读·人工智能·笔记·深度学习
新新学长搞科研10 分钟前
【最新】2026年能源方向学术会议征稿/交流资讯
人工智能·功能测试·计算机视觉·自动化·能源·新能源·材料工程
Coovally AI模型快速验证13 分钟前
多校联合提出LLM-as-Judge:大模型评判无人机电力线分割,无真值场景下守护安全
人工智能·计算机视觉·电力巡检
AI阿阳16 分钟前
✅真・喂饭级教程:2026 年 OpenClaw(Clawdbot)新手部署 + 飞书接入步骤流程
人工智能·windows·飞书·openclaw·openclaw 教程·本地 ai 部署
丷丩17 分钟前
策略模式实战:GeoAI-UP中MVT发布器的可扩展架构设计
人工智能·架构·gis·策略模式·空间分析·geoai