中文信息处理

geneculture21 天前
人工智能·语言学·融智学应用场景·中文信息处理·融智时代(杂志)·言和语·言本位
中文信息处理的词边界重构:基于融智学的汉英结构计算模型邹晓辉*塞尔科技(北京大学跨学科知识建模课题组)横琴融智学小组,仁山路100号,51900,中国摘要:针对中文信息处理领域长期存在的“词是什么”这一根本性范式危机,本文引入融智学的“言和语”二分理论框架,对中文中单音节汉字(言)与混音节字组(语)进行层级化解构,并与英文的Word与Phrase概念展开系统比较。区别于传统的基于规则或统计的分词方法,本文提出一种融合横向选择权重(W_h)与纵向推进权重(W_v)的动态计算模型,将句法成分(主、谓、宾等)重新定义为概率性调用模块。通过在通用数据集(CTB)上实
2401_841495647 个月前
人工智能·自然语言处理·中文信息处理·西文字符编码的奠基·中文编码的演进·字符编码的实践价值·字频统计的作用与方法
【自然语言处理】字符编码与字频统计:中文信息处理的底层逻辑与实践维度目录一、引言二、从混乱到统一:西文字符编码的奠基三、中文编码的演进:从国标到全球统一(一)国标码(GB2312):中文编码的第一次统一
2401_841495647 个月前
人工智能·自然语言处理·语料库·标注·汉语语料库·中文信息处理·语料
【自然语言处理】汉语语料库建设的深层困境与现实挑战目录一、引言二、语料获取:源头壁垒与结构失衡的双重梗阻(一)历史积淀薄弱与数字化程度偏低的先天短板(二)资源分布分散与数据壁垒的现实障碍
我是有底线的