Co-Occurrence Matrix——共现矩阵原理介绍

文章目录

共现和上下文窗口

  • 共现(Co-occurrence)------对于给定的语料库,一对单词(如w1和w2)的共现是指它们在上、下文窗口中同时出现的次数。
  • 上下文窗口(Context Window)------指的是某个单词w的上下文范围的大小,也就是前后多少个单词以内的才算是上下文?一般,上、下文窗口由数字和方向指定。

示例中的上下文窗口为 2

共现矩阵的生成

  1. 由语料库中所有不重复单词构成矩阵A以存储单词的共现次数。

  2. 人为指定Context Window大小,计算每个单词在指定大小的上下文窗口中与它周围单词同时出现的次数。

  3. 依次计算语料库中各单词对的共现次数。

共现矩阵存在的问题及解决方法

  • 共现矩阵增加了字典或词汇的大小(Increase in size with dictionary or vocabulary.)
  • 对于一个庞大的语料库,这个共现矩阵可能变得非常复杂(高维),后续分类模型面临稀疏性问题,模型的健壮性较差。

奇异值分解(SVD)和主成分分析(PCA)是两种特征值方法,主要用于将高维数据集降维,同时保留重要信息。

主成分分析 PCA
奇异值分解 SVD
相关推荐
bulingg2 小时前
L1与L2正则化的差异
线性代数·矩阵·概率论
智算菩萨6 小时前
【OpenGL】10 完整游戏开发实战:基于OpenGL的2D/3D游戏框架、物理引擎集成与AI辅助编程指南
人工智能·python·游戏·3d·矩阵·pygame·opengl
Frostnova丶7 小时前
LeetCode 2573. 找出对应 LCP 矩阵的字符串
算法·leetcode·矩阵
历程里程碑9 小时前
Protobuf 环境搭建:Windows 与 Linux 系统安装教程
linux·运维·数据结构·windows·线性代数·算法·矩阵
爱丽_12 小时前
高维问题如何“降维计算”:矩阵映射、卷积与拆分汇总
深度学习·矩阵·cnn
EQUINOX112 小时前
马尔可夫链
线性代数·动态规划·随机数学
MediaTea14 小时前
NumPy 函数手册:线性代数
线性代数·numpy
放下华子我只抽RuiKe516 小时前
深度学习 - 01 - NLP自然语言处理基础
前端·人工智能·深度学习·神经网络·自然语言处理·矩阵·easyui
AI科技星17 小时前
基于v≡c光速螺旋理论的正确性证明:严格遵循科学方法论的完整路径
c语言·开发语言·人工智能·线性代数·算法·机器学习·数学建模
RFdragon21 小时前
分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)
人工智能·线性代数·算法·机器学习·计算机视觉·矩阵·paddlepaddle