LLM资料:中文embedding库

Highlight(重点提示)

理解LLM,就要理解Transformer,但其实最基础的还是要从词的embedding讲起。

毕竟计算机能处理的只有数字,所以万事开头的第一步就是将要处理的任务转换为数字。

面向中文的开源embedding库在自然语言处理领域中扮演着重要的角色,它们能够将文本数据转换为数值向量,进而用于各种机器学习任务。以下是一些常见的面向中文的开源embedding库:

1. Tencent AI Lab Embedding Dataset

  • 简介:由腾讯AI实验室提供的中文和英文词嵌入数据集,包含超过1200万中文词汇和650万英文词汇的预训练词向量。
  • 特点:该数据集提供了100维和200维的词向量表示,能够广泛应用于命名实体识别、文本分类等下游任务。
  • 优势:覆盖面广、新颖性强、准确度高,包含了大量领域特定词汇和新兴词汇。
  • 资源 :可通过Tencent AI Lab Embedding Dataset页面下载。

2. M3E

  • 简介:Moka(北京希瑞亚斯科技)开源的中文文本嵌入模型,特别针对中文处理进行了优化。
  • 特点:使用大规模中文句对数据集进行训练,支持同质文本相似度计算和异质文本检索。
  • 优势:在文本分类和文本检索任务上表现优异,超越了openai-ada-002模型(ChatGPT官方模型)。
  • 资源 :模型地址在M3E GitHub页面。

3. Chinese-Word-Vectors

  • 简介:一个收集了多种预训练中文词向量的资源库。
  • 特点:包含了多种不同来源和训练方法的中文词向量,如使用Word2Vec、GloVe等技术训练的词向量。
  • 优势:提供了丰富的中文词向量资源,方便研究者和开发者根据需求选择合适的词向量模型。
  • 资源 :可通过Chinese-Word-Vectors GitHub页面获取。

4. FastNLP

  • 简介:一款轻量级的NLP处理套件,支持中文文本处理。
  • 特点:提供了文本分类、命名实体识别等多种NLP任务的处理流程和模型。
  • 优势:易于使用,快速上手,支持自定义流程和模型训练。
  • 资源 :可通过FastNLP GitHub页面下载。

5. HanLP

  • 简介:一款高性能、高可用的中文语言处理包。
  • 特点:提供了分词、词性标注、命名实体识别、情感分析等多种中文处理功能。
  • 优势:性能优异,支持多种中文处理任务,社区活跃,持续更新。
  • 资源 :可通过HanLP GitHub页面获取。

6. SnowNLP

  • 简介:一个用于处理中文文本的Python库。
  • 特点:提供了分词、词性标注、情感分析等中文文本处理功能。
  • 优势:简单易用,适合初学者快速实现中文文本处理。
  • 资源 :可通过SnowNLP GitHub页面下载。

这些库和资源为中文自然语言处理提供了强大的支持,无论是学术研究还是商业应用,都可以根据具体需求选择合适的embedding库进行开发和研究。随着AI技术的发展,未来还会有更多高效、实用的embedding库出现,为中文NLP领域带来新的突破。

相关推荐
大鹏的NLP博客4 小时前
基于 Transformer robert的情感分类任务实践总结之二——R-Drop
分类·transformer·r-dop
写代码的小阿帆4 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
掘金安东尼6 小时前
字节-Trae、阿里-通义灵码、腾讯-CodeBuddy,为什么都在“卷”AI编码?
面试·llm·github
MYH5167 小时前
豆包和deepseek 元宝 百度ai区别是什么
transformer
春末的南方城市8 小时前
中山大学&美团&港科大提出首个音频驱动多人对话视频生成MultiTalk,输入一个音频和提示,即可生成对应唇部、音频交互视频。
人工智能·python·深度学习·计算机视觉·transformer
土豆125011 小时前
告别“专属”编辑器:为什么 GitHub Copilot 是比 Cursor 更优的 AI 编程选择
llm·cursor·github copilot
知其然亦知其所以然11 小时前
RAG 结果太水?用 RRF + Reranker 重排,效果翻倍提升!
java·后端·llm
磊叔的技术博客11 小时前
Spring AI Chat Memory 实战指南:Local 与 JDBC 存储集成
spring·llm·openai
海盗儿1 天前
Attention Is All You Need (Transformer) 以及Transformer pytorch实现
pytorch·深度学习·transformer
春末的南方城市1 天前
港科大&快手提出统一上下文视频编辑 UNIC,各种视频编辑任务一网打尽,还可进行多项任务组合!
人工智能·计算机视觉·stable diffusion·aigc·transformer