在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型、中文多模态模型、中文大语言模型等内容(感谢分享资源的大佬),并将持续更新...

Expand Table of Contents
-
NLU系列
- NLG系列
- NLU-NLG系列
- Multi-Modal
- Table
Base-LLM
大规模基础模型:表格中只罗列出参数量
大于7B以上模型。
[Back to Top](#Back to Top)
Domain-Base-LLM
各个垂直领域开源基础模型
[Back to Top](#Back to Top)
ChatLLM
具备问答和对话等功能的大型语言模型。
[Back to Top](#Back to Top)
Domain-ChatLLM
开源的垂直领域对话大模型
[Back to Top](#Back to Top)
MultiModal-ChatLLM
收集包含中文的多模态大模型,具备对话等功能。
[Back to Top](#Back to Top)
中文指令数据集
收集包含中文的指令数据集,用于微调语言模型。
| 名称 | 大小 | 时间 | 语言 | 下载 | 项目地址 | 作者 | 备注 |
|---|---|---|---|---|---|---|---|
| FinCorpus | 50G | 2023-09 | 中文 | dataset | XuanYuan | 度小满 | 金融领域 |
| TransGPT-sft | 346k | 2023-07 | 中文 | dataset | TransGPT | 北京交通大学 | |
| TransGPT-pt | 58k | 2023-07 | 中文 | dataset | TransGPT | 北京交通大学 | |
| ShareGPT-Chinese-English | 90K | 2023-07 | 中英 | dataset | llama2-Chinese-chat
Embedding
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 文 |
|---|---|---|---|---|---|---|---|---|
| BCE | 279M | 2024-01 | 多语 | 通用 | [🤗HF](https://huggingface.co/maidalun1020/bce-embedding-base_v1) | BCEmbedding | netease-youdao | |
| Cohere | Base | 2023-09 | 多语 | 通用 | [🤗HF](https://huggingface.co/Cohere) | / | Cohere | Blog |
| jina | Base | 2023-10 | 中英 | 通用 | [🤗HF](https://huggingface.co/jinaai/jina-embeddings-v2-base-zh) | / | Jina AI | |
| Dmeta | 400MB | 2024-02 | 中文 | 通用 | [🤗HF](https://hf-mirror.com/DMetaSoul/Dmeta-embedding) | / | DMetaSoul | |
| bge-m3 | 2024-02 | 中文 | 通用 | [🤗HF](https://hf-mirror.com/BAAI) | / | BAAI | Paper | |
| tao-8k | 2023-11 | 中文 | 通用 | [🤗HF](https://hf-mirror.com/amu) | amu | |||
| bge | s/b/l | 2023-10 | 中文 | 通用 | [🤗HF](https://hf-mirror.com/BAAI) | / | BAAI | |
| gte-zh | s/b/l | 2023-08 | 中文 | 通用 | [🤗HF](https://hf-mirror.com/DMetaSoul/Dmeta-embedding) | / | Alibaba DAMO | Paper |
| m3e | s/b/l | 2023-06 | 中文 | 通用 | [🤗HF](https://hf-mirror.com/moka-ai) | / | Moka-AI | |
| LaBSE | 多语 | 通用 | [🤗HF](https://hf-mirror.com/sentence-transformers/LaBSE) | / | Sentence Transformers |
[Back to Top](#Back to Top)
大模型评估基准
1. C-Eval \] \[[Github](https://github.com/SJTU-LIT/ceval)\] \[[论文](https://arxiv.org/abs/2305.08322)
2. FlagEval \] \[[Github](https://github.com/FlagOpen/FlagEval)
3. SuperCLUElyb \] \[[Github](https://github.com/CLUEbenchmark/SuperCLUElyb)
4. XiezhiBenchmark ![
该基准包括来自13个不同学科的516个学科的220,000个多项选择题,以及15,000个来自单一学科和多个学科的问题。我们对47个最新的大型语言模型在Xiezhi上进行了评估,结果表明在科学、工程、农学、医学和艺术等领域,大型语言模型的表现超过了人类的平均水平,但在经济学、法学、教育学、文学、历史和管理学等领域,人类的表现仍然远远超过了大型语言模型。
[官方网站]()\] \[[Github](https://github.com/mikegu721/xiezhibenchmark)\] \[[论文](https://arxiv.org/abs/2306.05783)
5. Open LLM Leaderboard
由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型,以英文为主。主要目标是跟踪、排名和评估最新的大语言模型和聊天机器人,让所有人方便的观察到开源社区的进展和评估这些模型。这个排行榜有一个关键优势,社区中的任何成员都可以提交模型,并在 Hugging Face 的 GPU 集群上自动评估。
[官方网站](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
6. 中文大模型安全评测平台 \] \[[Github](https://github.com/thu-coai/Safety-Prompts)\] \[[论文](https://arxiv.org/abs/2304.10436)
7. OpenCompass大语言模型评测 !
OpenCompass 是一款开源、高效、全面的评测大模型体系及开放平台。我们提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术,即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式,包括零样本评测、小样本评测和思维链评测,全方位量化模型各个维度能力。
[官方网站](https://opencompass.org.cn/)\] \[[Github](https://github.com/open-compass/opencompass)
[Back to Top](#Back to Top)
在线体验大模型
注 :需要申请或者注册方可体验,更多见Github
1. ChatGPT--OpenAI
OpenAI所提出的GPT相关模型,也是目前最火的大语言模型,发布版本已经到了4.0.
[官方网站](https://chat.openai.com/chat)
2. New bing--微软
NewBing是微软在2023年3月推出的一款全新的搜索引擎,它基于OpenAI的大型语言模型(LLM),并结合了ChatGPT和DALL·E的技术,为用户提供了一个AI驱动的网络助手。
[官方网站](https://www.bing.com/)
3. 文心一言--百度
百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。
[官方网站](https://yiyan.baidu.com/welcome)
4. 通义大模型--阿里
阿里大模型统一品牌,覆盖语言、听觉、多模态等领域致力于实现接近人类智慧的通用智能,让AI从"单一感官"到"五官全开"
[官方网站](https://tongyi.aliyun.com/)
5. 星火认知大模型--科大讯飞
科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
[官方网站](https://xinghuo.xfyun.cn/)
6. Claude--Anthropic
Claude,是人工智能初创公司Anthropic 发布的一款类似ChatGPT的产品。
[官方网站](https://www.anthropic.com/product)
7. ChatGLM--智谱AI
基于千亿基座模型 GLM-130B,注入代码预训练,通过有监督微调等技术实现人类意图对齐,具备问答、多轮对话、代码生成功能的中英双语大模型。
[官方网站](https://chatglm.cn/)
8. 天工大模型--昆仑万维
天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
[官方网站](https://tiangong.kunlun.com/)
9. 序列猴子大模型--出门问问
序列猴子大模型是一个具有长序列、多模态、单模型、大数据等特点的超大规模语言模型,基于其通用的表示能力与推理能力,能够进行多轮交互,打造更便捷流畅的用户体验,极大地提高了生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。
[官方网站](https://openapi.mobvoi.com/largemodel-introduce)
10. MOSS--复旦大学
MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型
[官方网站](https://moss.fastnlp.top/)
11. 360智脑大模--360
360智脑的生成与创作、多轮对话、代码能力、阅读理解、逻辑与推理、多模态等十大核心能力可覆盖大模型全部应用场景。
[官方网站](https://ai.360.cn/)
12. 曹植GPT大语言模型--达观数据
达观数据积极探索大语言模型LLM的实践,研发国产版GPT"曹植"系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅实现专业领域的AIGC智能化应用,且可内置在客户各类业务系统中提供专用服务
[官方网站](http://www.datagrand.com/products/aigc/)
13. 日日新--商汤
商汤"日日新SenseNova"大模型体系,正式问世
不仅展示了大模型体系下的语言大模型,还展示了AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用,还揭开了依托商汤AI大装置SenseCore实现"大模型+大算力"融合创新的研发体系。
[官方网站](https://techday.sensetime.com/list)
14. 天燕大模型--APUS
天燕大模型是APUS公司自研的多模态大模型(LMM),具备对文本、图像、视频、音频的理解和生成能力(视频和音频的能力即将推出)。
[官方网站](https://www.apusai.com/#/)
15. 元乘象--智子引擎
图文机器人
[官方网站](https://chatimg.aixiaoqingxu.com/)
16. 西湖大模型--西湖心辰
[官方网站](https://xinchenai.com/)
17. Dongni--深思考
AI多模态搜索引擎
[官方网站](https://www.dongni.ai/#/)
18. 山海大模型--云知声
只需一次对话即可获取信息、知识和灵感,解决需求。是每个人身边的助理、朋友和专家。
[官方网站](https://shanhai.unisound.com/)
19. MiniMax大模型--MiniMax
MiniMax 最新一代的中文大语言模型帮助人类高效写作、激发创意、获取知识、做出决策现已对企业开放API体验
[官方网站](https://api.minimax.chat/)
[Back to Top](#Back to Top)
开源模型库平台
- 🤗HuggingFace: The AI community building the future.
- 模型下载地址: https://huggingface.co/models
- ModelScope: ModelScope平台是以模型为中心的模型开源社区
- 模型下载地址:https://modelscope.cn/models
- flagopen: flagopen飞智大模型技术开源体系
- 模型下载地址: https://model.baai.ac.cn/models
- 始智AI: 中国AI开源创新社区
- 模型下载地址: https://wisemodel.cn/models
[Back to Top](#Back to Top)
开源数据集库
- huggfaceing数据集仓库: https://huggingface.co/datasets
- 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
- ModelScope数据集仓库:https://modelscope.cn/datasets
- 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
- flagopen数据集仓库: https://data.baai.ac.cn/data
- 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
- cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
- 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
- MNBVC: Massive Never-ending BT Vast Chinese corpus
- 超大规模中文语料集
- OpenDataLab数据集仓库: https://opendatalab.com/
- OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
- OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
- 最新版本包含1.4T的中文语言数据集
参考链接
https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models
