中文信息处理

中文信息处理的词边界重构：基于融智学的汉英结构计算模型邹晓辉*塞尔科技（北京大学跨学科知识建模课题组）横琴融智学小组，仁山路100号，51900，中国摘要：针对中文信息处理领域长期存在的“词是什么”这一根本性范式危机，本文引入融智学的“言和语”二分理论框架，对中文中单音节汉字（言）与混音节字组（语）进行层级化解构，并与英文的Word与Phrase概念展开系统比较。区别于传统的基于规则或统计的分词方法，本文提出一种融合横向选择权重（W_h）与纵向推进权重（W_v）的动态计算模型，将句法成分（主、谓、宾等）重新定义为概率性调用模块。通过在通用数据集（CTB）上实

【自然语言处理】字符编码与字频统计：中文信息处理的底层逻辑与实践维度目录一、引言二、从混乱到统一：西文字符编码的奠基三、中文编码的演进：从国标到全球统一（一）国标码（GB2312）：中文编码的第一次统一

【自然语言处理】汉语语料库建设的深层困境与现实挑战目录一、引言二、语料获取：源头壁垒与结构失衡的双重梗阻（一）历史积淀薄弱与数字化程度偏低的先天短板（二）资源分布分散与数据壁垒的现实障碍

我是有底线的