Co-Occurrence Matrix——共现矩阵原理介绍

文章目录

共现和上下文窗口

  • 共现(Co-occurrence)------对于给定的语料库,一对单词(如w1和w2)的共现是指它们在上、下文窗口中同时出现的次数。
  • 上下文窗口(Context Window)------指的是某个单词w的上下文范围的大小,也就是前后多少个单词以内的才算是上下文?一般,上、下文窗口由数字和方向指定。

示例中的上下文窗口为 2

共现矩阵的生成

  1. 由语料库中所有不重复单词构成矩阵A以存储单词的共现次数。

  2. 人为指定Context Window大小,计算每个单词在指定大小的上下文窗口中与它周围单词同时出现的次数。

  3. 依次计算语料库中各单词对的共现次数。

共现矩阵存在的问题及解决方法

  • 共现矩阵增加了字典或词汇的大小(Increase in size with dictionary or vocabulary.)
  • 对于一个庞大的语料库,这个共现矩阵可能变得非常复杂(高维),后续分类模型面临稀疏性问题,模型的健壮性较差。

奇异值分解(SVD)和主成分分析(PCA)是两种特征值方法,主要用于将高维数据集降维,同时保留重要信息。

主成分分析 PCA
奇异值分解 SVD
相关推荐
撩妹小狗4 天前
科赫雪花--Python--数学原理--turtle绘图
python·线性代数·几何学
张3蜂4 天前
线性代数与AI的关系
人工智能·线性代数
汉克老师4 天前
GESP2023年12月认证C++二级( 第三部分编程题(2) 小杨的H字矩阵)
c++·算法·矩阵·循环结构·gesp二级·gesp2级
AI科技星4 天前
物理世界的几何建构:论统一场论的本体论革命与概念生成
人工智能·opencv·线性代数·算法·矩阵
没有bug.的程序员4 天前
订单系统重构史诗:从单体巨兽到微服务矩阵的演进、数据一致性内核与分布式事务
java·微服务·矩阵·重构·分布式事务·数据一致性·订单系统
super_lzb4 天前
【线性代数】矩阵第一讲:矩阵与矩阵的运算
线性代数·矩阵·考研数学·矩阵的计算
newbiai4 天前
TikTok矩阵账号引流怎么解决效率低成本高?
python·线性代数·矩阵
逆境不可逃4 天前
【从零入门23种设计模式08】结构型之组合模式(含电商业务场景)
线性代数·算法·设计模式·职场和发展·矩阵·组合模式
菜鸡儿齐5 天前
leetcode-搜索二维矩阵
算法·leetcode·矩阵
炽烈小老头5 天前
【每天学习一点算法 2026/02/24】矩阵置零
学习·算法·矩阵