Co-Occurrence Matrix——共现矩阵原理介绍

文章目录

共现和上下文窗口

  • 共现(Co-occurrence)------对于给定的语料库,一对单词(如w1和w2)的共现是指它们在上、下文窗口中同时出现的次数。
  • 上下文窗口(Context Window)------指的是某个单词w的上下文范围的大小,也就是前后多少个单词以内的才算是上下文?一般,上、下文窗口由数字和方向指定。

示例中的上下文窗口为 2

共现矩阵的生成

  1. 由语料库中所有不重复单词构成矩阵A以存储单词的共现次数。

  2. 人为指定Context Window大小,计算每个单词在指定大小的上下文窗口中与它周围单词同时出现的次数。

  3. 依次计算语料库中各单词对的共现次数。

共现矩阵存在的问题及解决方法

  • 共现矩阵增加了字典或词汇的大小(Increase in size with dictionary or vocabulary.)
  • 对于一个庞大的语料库,这个共现矩阵可能变得非常复杂(高维),后续分类模型面临稀疏性问题,模型的健壮性较差。

奇异值分解(SVD)和主成分分析(PCA)是两种特征值方法,主要用于将高维数据集降维,同时保留重要信息。

主成分分析 PCA
奇异值分解 SVD
相关推荐
拼命鼠鼠12 小时前
【算法】矩阵链乘法的动态规划算法
算法·矩阵·动态规划
式51612 小时前
线性代数(八)非齐次方程组的解的结构
线性代数·算法·机器学习
式51621 小时前
线性代数(六)列空间和零空间
线性代数
式5161 天前
线性代数(九)线性相关性、基与维数
线性代数·算法·机器学习
好风凭借力,送我上青云1 天前
Pytorch经典卷积神经网络-----激活函数篇
人工智能·pytorch·深度学习·算法·矩阵·cnn
式5161 天前
线性代数(五)向量空间与子空间
人工智能·线性代数·机器学习
式5161 天前
线性代数(七)主变量与特解
线性代数·算法
跨境摸鱼2 天前
TikTok多账号风控:找对安全支点,解锁规模化运营
大数据·安全·矩阵·重构·跨境电商
咚咚王者2 天前
人工智能之数学基础 线性代数:第五章 张量
人工智能·线性代数
跨境卫士—小依2 天前
打破认知牢笼:合规新纪元,运营成本如何变身增长引擎?
大数据·矩阵·跨境电商·亚马逊·防关联