使用python按拼音归类GBK编码表中的所有汉字

|---------------------------------------------------------------------------------|
| 按拼音归类GBK编码表中的所有汉字,每个拼音对应的第一个汉字前面用左大括号,每一个拼音的最后一个汉字后面用右大括号,并保存到txt文本中,并统计包含了多少汉字 |

安装必要的库

确保安装 pypinyin 库用于拼音转换:

bash 复制代码
pip install pypinyin

代码

bash 复制代码
import collections
import pypinyin
 
# 生成 GBK 编码中的所有汉字
gbk_charset = set()
for high_byte in range(0x81, 0xFF):
    for low_byte in range(0x40, 0xFF):
        try:
            byte_seq = bytes([high_byte, low_byte])
            char = byte_seq.decode('gbk')
            if '\u4e00' <= char <= '\u9fff':  # 判断是否为汉字
                gbk_charset.add(char)
        except UnicodeDecodeError:
            continue
 
# 创建拼音分类字典
pinyin_dict = collections.defaultdict(list)
 
# 将汉字按拼音归类
for char in gbk_charset:
    pinyin_list = pypinyin.pinyin(char, style=pypinyin.NORMAL)
    if pinyin_list:
        pinyin = pinyin_list[0][0].lower()
        pinyin_dict[pinyin].append(char)
 
# 统计汉字数量
total_hanzi_count = sum(len(chars) for chars in pinyin_dict.values())
 
# 按拼音排序并保存到文本文件
sorted_pinyin = sorted(pinyin_dict.keys())
 
with open('gbk_hanzi_sorted_by_pinyin.txt', 'w', encoding='utf-8') as f:
    for pinyin in sorted_pinyin:
        chars = pinyin_dict[pinyin]
        if chars:
            formatted_chars = '{' + ''.join(chars) + '}'
            f.write(f"{pinyin}: {formatted_chars}\n")
    f.write(f"\n总共包含的汉字数量: {total_hanzi_count}\n")
 
print("汉字按拼音归类并保存到文本文件完成。")
print(f"总共包含的汉字数量: {total_hanzi_count}")
相关推荐
秋915 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
2601_9563198816 小时前
期货夜盘无人值守监控什么:断线、无成交与拒单信号
python·区块链
CTA终结者16 小时前
期货量化目标仓和净持仓对不齐:天勤 TargetPosTask 与 pos 偏差排查
python·区块链
科技林总16 小时前
解决vllm服务漏扫问题
python·安全
财经资讯数据_灵砚智能17 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
namexingyun17 小时前
拆解Fable 5三重安全护栏:模型路由、蒸馏防护与生物安全分类器的技术原理 - 微元算力(weytoken)
java·人工智能·python·安全·架构·ai编程
chenment18 小时前
别再为每个模型单独写一套队列了:用 200 行代码封装多模态统一调用层
人工智能·python·产品
啊森要自信18 小时前
【GUI自动化测试】控件、鼠标键盘操作与多场景自动化
c语言·开发语言·python·adb·ipython
YJlio18 小时前
《Sysinternals实战指南》16.5 Ctrl2Cap 工具详解:把 Caps Lock 变成 Ctrl 的键盘改造与回退方法
linux·运维·服务器·网络·python·学习·计算机外设
某林21218 小时前
从底层硬件死锁到 QoS 通信底层的全链路复盘
python·ros2·qos