汉字学习汉语学习相关库
可用的几个库
笔画动画库:hanzi-writer chanind/hanzi-writer: Chinese character stroke order animations and practice quizzes
makeme hanzi:
skishore/makemeahanzi: Free, open-source Chinese character data
汉语词典:skywind3000/ECDICT: Free English to Chinese Dictionary Database
新华字典:pwxcoo/chinese-xinhua: :orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。
中文学习库详细介绍
Make Me a Hanzi
提供超过 9000 个汉字的字典和图形数据,包括笔顺矢量图、拼音、释义、拆字结构等信息。数据来源于 Arphic Technology 公司发布的开源字体,遵循 Arphic Public License 许可证。该项目是 Hanzi Writer 的核心数据源,适合用于构建自定义汉字学习系统。
它使用文鼎数据 Arphic Public License 许可证
它是英文的释义,(不符合某个项目要求)
Hanzi Flashcards
一个基于 Python 的间隔重复闪卡程序,专为中文学习者设计,支持汉字、拼音和词义的记忆训练。它利用 Google API 自动生成定义和语音内容,适合个人化学习使用。
(没接触)
Unihan Database
Unicode 联盟官方维护的汉字属性数据库,收录了中日韩统一汉字(CJK Unified Ideographs)的基本信息,包括读音、含义、编码、部首、笔画等。可通过 Unicode 官网免费下载 XML 或文本格式的数据文件,常被各类操作系统和软件作为底层汉字支持依据
-
Chinese Word Vectors
由新加坡科技设计大学开源的中文词向量数据集,包含在大规模语料库上训练得到的 320 万个中文词汇的向量表示。支持在下游 NLP 任务中计算词语相似度、进行聚类分析等,适合机器学习驱动的学习工具。
-
THUOCL(清华大学开放中文词库)
清华大学整理的社会生活各个领域的中文词表,分为餐饮、法律、财经等多个领域共计约 10 万个高频词组。数据经过清洗标注,可用作关键词提取、话题分类等功能的基础资源。
-
Sinica Corpus
中央研究院语言学研究所建设的现代汉语平衡语料库,包含新闻报道、学术论文等多种文体的真实文本样本。虽然主要用于语言研究而非直接查阅,但对于构建智能问答系统、自动摘要引擎等深度应用很有价值。
Unihan Database 下载
要从 Unicode 联盟官方免费下载汉字相关的 XML 或文本格式数据文件,可以通过其官方网站提供的 Unihan Database 获取,这是最权威的中日韩统一汉字数据源。
以下是具体下载步骤:
-
访问 Unicode 官方网站
打开 Unicode 联盟官网:https://www.unicode.org
-
进入 Unihan 数据库页面
导航至 Unihan Database 下载入口:
https://www.unicode.org/reports/tr38/或直接访问 Unihan 归档目录:https://www.unicode.org/Public/UNIDATA/Unihan.zip
-
下载完整数据包
Unihan.zip是包含所有汉字属性的完整数据压缩包,解压后可获得多个文本文件(TSV 格式),如:Unihan_Readings.txt:包含拼音、日语读音、韩语读音等发音信息Unihan_Meanings.txt:汉字基本释义Unihan_DictionaryLikeData.txt:部首、笔画数、结构等属性
- 所有文件均为纯文本格式(UTF-8 编码),可直接解析为结构化数据
-
按需获取特定文件(可选)
如果只需部分数据,也可单独下载所需文件,例如:
-
使用与集成
- 数据遵循 Unicode 授权协议,允许免费用于开源或商业项目
- 可导入数据库系统(如 MySQL、SQLite)或转换为 JSON、XML 等格式供程序调用
- 适合用于汉字学习工具、输入法开发、NLP 应用等场景
要不要我生成一份自动化下载并解析Unihan数据的Python脚本,帮你快速构建本地汉字数据库?
它这个也是英文释义
ECDICT 开源英汉词典数据库
repo:skywind3000/ECDICT: Free English to Chinese Dictionary Database
基于 CC-CEDICT 构建并扩展, 怎么下载使用?
新华字典
repo:pwxcoo/chinese-xinhua: :orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。
这个是最符合要求的!
当然它的释义非常全,因为非常全,所以释义较多。
总结
释义和拼音方面用新华字典
如果是英文释义,可以用Make Me a Hanzi,它同时有笔顺矢量图、拼音、释义、拆字结构等信息
笔画动画,用hanzi-writer 库。