Co-Occurrence Matrix——共现矩阵原理介绍

文章目录

共现和上下文窗口

  • 共现(Co-occurrence)------对于给定的语料库,一对单词(如w1和w2)的共现是指它们在上、下文窗口中同时出现的次数。
  • 上下文窗口(Context Window)------指的是某个单词w的上下文范围的大小,也就是前后多少个单词以内的才算是上下文?一般,上、下文窗口由数字和方向指定。

示例中的上下文窗口为 2

共现矩阵的生成

  1. 由语料库中所有不重复单词构成矩阵A以存储单词的共现次数。

  2. 人为指定Context Window大小,计算每个单词在指定大小的上下文窗口中与它周围单词同时出现的次数。

  3. 依次计算语料库中各单词对的共现次数。

共现矩阵存在的问题及解决方法

  • 共现矩阵增加了字典或词汇的大小(Increase in size with dictionary or vocabulary.)
  • 对于一个庞大的语料库,这个共现矩阵可能变得非常复杂(高维),后续分类模型面临稀疏性问题,模型的健壮性较差。

奇异值分解(SVD)和主成分分析(PCA)是两种特征值方法,主要用于将高维数据集降维,同时保留重要信息。

主成分分析 PCA
奇异值分解 SVD
相关推荐
Hi202402171 天前
使用 Apollo TransformWrapper 生成相机到各坐标系的变换矩阵
数码相机·线性代数·矩阵·自动驾驶·apollo
塔中妖1 天前
【华为OD】最大子矩阵和
算法·华为od·矩阵
君名余曰正则2 天前
机器学习实操项目01——Numpy入门(基本操作、数组形状操作、复制与试图、多种索引技巧、线性代数)
线性代数·机器学习·numpy
点云SLAM2 天前
四元数 (Quaternion)与李群SE(3)知识点(1)
线性代数·slam·四元数·旋转矩阵·位姿表示·李群se(3)·四元数插值
代码的余温2 天前
Oracle RAC认证矩阵:规避风险的关键指南
数据库·oracle·矩阵
阿巴Jun2 天前
【数学】线性代数知识点总结
笔记·线性代数·矩阵
沧海一粟青草喂马2 天前
抖音批量上传视频怎么弄?抖音矩阵账号管理的专业指南
大数据·人工智能·矩阵
小麦矩阵系统永久免费2 天前
小麦矩阵系统:让短视频分发实现抖音快手小红书全覆盖
大数据·人工智能·矩阵
scx_link2 天前
数学知识--行向量与矩阵相乘,和矩阵与行向量相乘的区别
线性代数·矩阵
EQUINOX12 天前
矩阵的对称,反对称分解
线性代数·矩阵