汉字学习汉语学习相关库hanzi-writer 、makeme hanzi和chinese-xinhua

汉字学习汉语学习相关库

可用的几个库

笔画动画库:hanzi-writer chanind/hanzi-writer: Chinese character stroke order animations and practice quizzes

makeme hanzi:

skishore/makemeahanzi: Free, open-source Chinese character data

汉语词典:skywind3000/ECDICT: Free English to Chinese Dictionary Database

汉字字典:Page not found · GitHub

新华字典:pwxcoo/chinese-xinhua: :orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。

中文学习库详细介绍

Make Me a Hanzi

提供超过 9000 个汉字的字典和图形数据,包括笔顺矢量图、拼音、释义、拆字结构等信息。数据来源于 Arphic Technology 公司发布的开源字体,遵循 Arphic Public License 许可证。该项目是 Hanzi Writer 的核心数据源,适合用于构建自定义汉字学习系统。

它使用文鼎数据 Arphic Public License 许可证

它是英文的释义,(不符合某个项目要求)

Hanzi Flashcards

一个基于 Python 的间隔重复闪卡程序,专为中文学习者设计,支持汉字、拼音和词义的记忆训练。它利用 Google API 自动生成定义和语音内容,适合个人化学习使用。

(没接触)

Unihan Database

Unicode 联盟官方维护的汉字属性数据库,收录了中日韩统一汉字(CJK Unified Ideographs)的基本信息,包括读音、含义、编码、部首、笔画等。可通过 Unicode 官网免费下载 XML 或文本格式的数据文件,常被各类操作系统和软件作为底层汉字支持依据

  1. Chinese Word Vectors

    由新加坡科技设计大学开源的中文词向量数据集,包含在大规模语料库上训练得到的 320 万个中文词汇的向量表示。支持在下游 NLP 任务中计算词语相似度、进行聚类分析等,适合机器学习驱动的学习工具。

  2. THUOCL(清华大学开放中文词库)

    清华大学整理的社会生活各个领域的中文词表,分为餐饮、法律、财经等多个领域共计约 10 万个高频词组。数据经过清洗标注,可用作关键词提取、话题分类等功能的基础资源。

  3. Sinica Corpus

    中央研究院语言学研究所建设的现代汉语平衡语料库,包含新闻报道、学术论文等多种文体的真实文本样本。虽然主要用于语言研究而非直接查阅,但对于构建智能问答系统、自动摘要引擎等深度应用很有价值。

Unihan Database 下载

要从 Unicode 联盟官方免费下载汉字相关的 XML 或文本格式数据文件,可以通过其官方网站提供的 ‌Unihan Database‌ 获取,这是最权威的中日韩统一汉字数据源。

以下是具体下载步骤:

  1. 访问 Unicode 官方网站

    打开 Unicode 联盟官网:https://www.unicode.org

  2. 进入 Unihan 数据库页面

    导航至 Unihan Database 下载入口:
    https://www.unicode.org/reports/tr38/

    或直接访问 Unihan 归档目录:https://www.unicode.org/Public/UNIDATA/Unihan.zip

  3. 下载完整数据包

    • Unihan.zip 是包含所有汉字属性的完整数据压缩包,解压后可获得多个文本文件(TSV 格式),如:
      • Unihan_Readings.txt:包含拼音、日语读音、韩语读音等发音信息
      • Unihan_Meanings.txt:汉字基本释义
      • Unihan_DictionaryLikeData.txt:部首、笔画数、结构等属性
    • 所有文件均为纯文本格式(UTF-8 编码),可直接解析为结构化数据
  4. 按需获取特定文件(可选)

    如果只需部分数据,也可单独下载所需文件,例如:

  5. 使用与集成

    • 数据遵循 Unicode 授权协议,允许免费用于开源或商业项目
    • 可导入数据库系统(如 MySQL、SQLite)或转换为 JSON、XML 等格式供程序调用
    • 适合用于汉字学习工具、输入法开发、NLP 应用等场景

要不要我‌生成一份自动化下载并解析Unihan数据的Python脚本‌,帮你快速构建本地汉字数据库?

它这个也是英文释义

ECDICT 开源英汉词典数据库‌

repo:skywind3000/ECDICT: Free English to Chinese Dictionary Database

基于 CC-CEDICT 构建并扩展, 怎么下载使用?

新华字典

repo:pwxcoo/chinese-xinhua: :orange_book: 中华新华字典数据库。包括歇后语,成语,词语,汉字。

这个是最符合要求的!

当然它的释义非常全,因为非常全,所以释义较多。

总结

释义和拼音方面用新华字典

如果是英文释义,可以用Make Me a Hanzi,它同时有笔顺矢量图、拼音、释义、拆字结构等信息

笔画动画,用hanzi-writer 库。

相关推荐
学编程的闹钟9 小时前
PHP变量类型转换机制全解析
学习
AI360labs_atyun12 小时前
字节AI双王炸来了!Seedance 2.0 + Seedream 5.0
人工智能·科技·学习·百度·ai
不用89k13 小时前
SpringBoot学习新手项初识请求
java·spring boot·学习
汐汐咯13 小时前
CNN学习
深度学习·学习·cnn
shadow fish14 小时前
react学习记录(三)
javascript·学习·react.js
Aliex_git14 小时前
浏览器 API 兼容性解决方案
前端·笔记·学习
四谎真好看14 小时前
SSM学习笔记(Spring篇 Day02)
笔记·学习·学习笔记·ssm
瞎某某Blinder17 小时前
DFT学习记录[3]:material project api使用方法 mp_api调取与pymatgen保存
java·笔记·python·学习
学编程的闹钟18 小时前
PHP编程高手的信息检索与文档查阅秘籍
学习