自然语言处理学习笔记(十一)————简繁转换与拼音转换

目录

1.简繁转换

2.拼音转换


1.简繁转换

简繁转换指的是简体中文和繁体中文之间的相互转换。可能有的人觉得,这很简单,按字转换 就好了。HanLP提供了这样的朴素实现**CharTable,**用来执行字符正规化(繁体->简体,全角->半角,大写->小写)

复制代码
System.out.println(CharTable.convert("愛聽4G"));
打印结果为:爱听4G

事实上,汉字历史悠久,地域复杂,在字符级别存在"一简对多繁"和"一繁对多简"的情况。在词语级别上存在"简繁分歧词",按字转换容易出错。

eg:"代码","代碼",台湾称为"程式碼",这就是"简繁分歧词"。

eg:"头发"、"发财"对应的繁体字为"頭髮"和"發財",这里的"发"就是一简对多繁。

这启示我们不能按字转换,最起码是按词转换。

s:简体

t:繁体

tw:台湾繁体

hk:香港繁体

HanLP.convertToTraditionalChinese:简转繁

HanLP.s2t:简转繁

HanLP.s2tw:简转香港繁体

HanLP.s2hk:简转香港繁体

2.拼音转换

拼音转换涉及到多音字的问题,仍然需要按词转换

相关推荐
一方热衷.3 小时前
YOLO26-Seg ONNXruntime C++/python推理
开发语言·c++·python
YMWM_4 小时前
如何将包路径添加到conda环境lerobot的python路径中呢?
人工智能·python·conda
炽烈小老头5 小时前
【每天学习一点算法 2026/03/08】相交链表
学习·算法·链表
田里的水稻5 小时前
ubuntu22.04_openclaw_ROS2
人工智能·python·机器人
梁正雄5 小时前
Python前端-2-css练习
前端·css·python
wefly20175 小时前
开发者效率神器!jsontop.cn一站式工具集,覆盖开发全流程高频需求
前端·后端·python·django·flask·前端开发工具·后端开发工具
6+h6 小时前
【java】基本数据类型与包装类:拆箱装箱机制
java·开发语言·python
日更嵌入式的打工仔6 小时前
个人笔记3
笔记
GDAL6 小时前
MANIFEST.in简介
linux·服务器·前端·python
red_redemption7 小时前
自由学习记录(130)
学习·soa·aos·ecs已成核心包·shading!=ps