Co-Occurrence Matrix——共现矩阵原理介绍

文章目录

共现和上下文窗口

  • 共现(Co-occurrence)------对于给定的语料库,一对单词(如w1和w2)的共现是指它们在上、下文窗口中同时出现的次数。
  • 上下文窗口(Context Window)------指的是某个单词w的上下文范围的大小,也就是前后多少个单词以内的才算是上下文?一般,上、下文窗口由数字和方向指定。

示例中的上下文窗口为 2

共现矩阵的生成

  1. 由语料库中所有不重复单词构成矩阵A以存储单词的共现次数。

  2. 人为指定Context Window大小,计算每个单词在指定大小的上下文窗口中与它周围单词同时出现的次数。

  3. 依次计算语料库中各单词对的共现次数。

共现矩阵存在的问题及解决方法

  • 共现矩阵增加了字典或词汇的大小(Increase in size with dictionary or vocabulary.)
  • 对于一个庞大的语料库,这个共现矩阵可能变得非常复杂(高维),后续分类模型面临稀疏性问题,模型的健壮性较差。

奇异值分解(SVD)和主成分分析(PCA)是两种特征值方法,主要用于将高维数据集降维,同时保留重要信息。

主成分分析 PCA
奇异值分解 SVD
相关推荐
重生之我是Java开发战士9 小时前
【优选算法】前缀和:一二维前缀和,寻找数组的中心下标,除自身以外数组的乘积,和为K的子数组,和可被K整除的子数组,连续数组,矩阵区域和
线性代数·算法·矩阵
We་ct11 小时前
LeetCode 73. 矩阵置零:原地算法实现与优化解析
前端·算法·leetcode·矩阵·typescript
好学且牛逼的马11 小时前
【Hot100|22-LeetCode 206. 反转链表 - 完整解法详解】
算法·leetcode·矩阵
ValhallaCoder11 小时前
hot100-矩阵
数据结构·python·算法·矩阵
-dzk-20 小时前
【代码随想录】LC 59.螺旋矩阵 II
c++·线性代数·算法·矩阵·模拟
We་ct1 天前
LeetCode 54. 螺旋矩阵:两种解法吃透顺时针遍历逻辑
前端·算法·leetcode·矩阵·typescript
weisian1511 天前
进阶篇-7-数学篇-6--向量、矩阵、张量在 AI 中的运算与应用:解锁智能的“计算语法”
人工智能·线性代数·矩阵·向量·ai运算
独自破碎E1 天前
【前缀和】LCR_013_二维区域和检索-矩阵不可变
线性代数·矩阵
香芋Yu1 天前
【机器学习教程】第03章:SVD与矩阵分解
笔记·机器学习·矩阵
香芋Yu1 天前
【机器学习教程】第02章:线性代数基础【上】
笔记·线性代数·机器学习