汉字学习汉语学习相关库hanzi-writer 、makeme hanzi和chinese-xinhua

汉字学习汉语学习相关库

可用的几个库

笔画动画库:hanzi-writer chanind/hanzi-writer: Chinese character stroke order animations and practice quizzes

makeme hanzi:

skishore/makemeahanzi: Free, open-source Chinese character data

汉语词典:skywind3000/ECDICT: Free English to Chinese Dictionary Database

汉字字典:Page not found · GitHub

新华字典:pwxcoo/chinese-xinhua: :orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。

中文学习库详细介绍

Make Me a Hanzi

提供超过 9000 个汉字的字典和图形数据,包括笔顺矢量图、拼音、释义、拆字结构等信息。数据来源于 Arphic Technology 公司发布的开源字体,遵循 Arphic Public License 许可证。该项目是 Hanzi Writer 的核心数据源,适合用于构建自定义汉字学习系统。

它使用文鼎数据 Arphic Public License 许可证

它是英文的释义,(不符合某个项目要求)

Hanzi Flashcards

一个基于 Python 的间隔重复闪卡程序,专为中文学习者设计,支持汉字、拼音和词义的记忆训练。它利用 Google API 自动生成定义和语音内容,适合个人化学习使用。

(没接触)

Unihan Database

Unicode 联盟官方维护的汉字属性数据库,收录了中日韩统一汉字(CJK Unified Ideographs)的基本信息,包括读音、含义、编码、部首、笔画等。可通过 Unicode 官网免费下载 XML 或文本格式的数据文件,常被各类操作系统和软件作为底层汉字支持依据

  1. Chinese Word Vectors

    由新加坡科技设计大学开源的中文词向量数据集,包含在大规模语料库上训练得到的 320 万个中文词汇的向量表示。支持在下游 NLP 任务中计算词语相似度、进行聚类分析等,适合机器学习驱动的学习工具。

  2. THUOCL(清华大学开放中文词库)

    清华大学整理的社会生活各个领域的中文词表,分为餐饮、法律、财经等多个领域共计约 10 万个高频词组。数据经过清洗标注,可用作关键词提取、话题分类等功能的基础资源。

  3. Sinica Corpus

    中央研究院语言学研究所建设的现代汉语平衡语料库,包含新闻报道、学术论文等多种文体的真实文本样本。虽然主要用于语言研究而非直接查阅,但对于构建智能问答系统、自动摘要引擎等深度应用很有价值。

Unihan Database 下载

要从 Unicode 联盟官方免费下载汉字相关的 XML 或文本格式数据文件,可以通过其官方网站提供的 ‌Unihan Database‌ 获取,这是最权威的中日韩统一汉字数据源。

以下是具体下载步骤:

  1. 访问 Unicode 官方网站

    打开 Unicode 联盟官网:https://www.unicode.org

  2. 进入 Unihan 数据库页面

    导航至 Unihan Database 下载入口:
    https://www.unicode.org/reports/tr38/

    或直接访问 Unihan 归档目录:https://www.unicode.org/Public/UNIDATA/Unihan.zip

  3. 下载完整数据包

    • Unihan.zip 是包含所有汉字属性的完整数据压缩包,解压后可获得多个文本文件(TSV 格式),如:
      • Unihan_Readings.txt:包含拼音、日语读音、韩语读音等发音信息
      • Unihan_Meanings.txt:汉字基本释义
      • Unihan_DictionaryLikeData.txt:部首、笔画数、结构等属性
    • 所有文件均为纯文本格式(UTF-8 编码),可直接解析为结构化数据
  4. 按需获取特定文件(可选)

    如果只需部分数据,也可单独下载所需文件,例如:

  5. 使用与集成

    • 数据遵循 Unicode 授权协议,允许免费用于开源或商业项目
    • 可导入数据库系统(如 MySQL、SQLite)或转换为 JSON、XML 等格式供程序调用
    • 适合用于汉字学习工具、输入法开发、NLP 应用等场景

要不要我‌生成一份自动化下载并解析Unihan数据的Python脚本‌,帮你快速构建本地汉字数据库?

它这个也是英文释义

ECDICT 开源英汉词典数据库‌

repo:skywind3000/ECDICT: Free English to Chinese Dictionary Database

基于 CC-CEDICT 构建并扩展, 怎么下载使用?

新华字典

repo:pwxcoo/chinese-xinhua: :orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。

这个是最符合要求的!

当然它的释义非常全,因为非常全,所以释义较多。

总结

释义和拼音方面用新华字典

如果是英文释义,可以用Make Me a Hanzi,它同时有笔顺矢量图、拼音、释义、拆字结构等信息

笔画动画,用hanzi-writer 库。

相关推荐
西岸行者9 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
悠哉悠哉愿意9 天前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
别催小唐敲代码9 天前
嵌入式学习路线
学习
毛小茛9 天前
计算机系统概论——校验码
学习
babe小鑫9 天前
大专经济信息管理专业学习数据分析的必要性
学习·数据挖掘·数据分析
winfreedoms9 天前
ROS2知识大白话
笔记·学习·ros2
在这habit之下9 天前
Linux Virtual Server(LVS)学习总结
linux·学习·lvs
我想我不够好。9 天前
2026.2.25监控学习
学习
im_AMBER9 天前
Leetcode 127 删除有序数组中的重复项 | 删除有序数组中的重复项 II
数据结构·学习·算法·leetcode
CodeJourney_J9 天前
从“Hello World“ 开始 C++
c语言·c++·学习