【数学建模】相关是一个距离指标吗?

一、说明

本文探讨最平凡的数学模型--距离模型。我们知道,任何数学模型如果是个距离模型,那么它是:放心的、自动的、不加任意条件的指标项目。然而另一些度量参数不是距离空间,因此,使用起来必须外加若干条件,本文指的相关性就是这种类型的度量。

二、度量基本概念

在没有距离的情况下,"近"和"远"是没有意义的。为了在一组抽象的数学对象上定义这些概念,我们需要能够测量每对对象之间的距离。问题是:如果抽象的数学对象是随机变量,那么我们应该如何测量它们之间的距离?

相关距离是测量具有有限方差的两个随机变量之间距离的常用方法¹。如果两个随机变量之间的相关²为r,则它们的相关距离定义为d=1-r。但是,适当的距离度量需要具有一些属性,即应该是一个度量,并且相关距离是否具有这些属性并非易事。在本说明中,我们询问相关距离是否是一个指标。

三、回顾:什么是度量?

考虑我们要定义集合Ω元素之间的距离度量。然后,度量(适当的距离度量)是具有以下属性的函数 d:Ω×Ω →R⁺:

  1. 如果两个物体的距离为零,则它们是相同的,反之亦然;即 d(x,y) = 0 iff x = y。
  2. 它是对称的,即d(x*,y)=d(y,x)。*
  3. 它满足三角不等式,即d(x,y)≤d(x,z)+d(z,y)。

由于相关性是对称的,因此对于相关距离,第二个性质显然是满足的。因此,我们需要研究另外两个。

四、第一属性:元素身份辨别

考虑具有相关性 r₁ ₂ 的随机变量 X₁ 和 X ₂。 则相关距离 d₁₂ = 1 - r₁₂ 为零,当且仅 r₁₂ = 1。 同时,X₁ 和 X 之间的相关性是 0,当且仅当存在 a><>b∈ R 使得 X₁=aX₂+b

换句话说,d₁₂ 为零当且仅当 X 可以通过仅通过移动和缩放转换为 X₁。相关距离的这一特殊特征使得我们需要平移和尺度不变距离测量的情况非常有趣。但是,此功能使得相关距离不可能成为具有有限方差的所有随机变量集合的度量;相反,它仍然可以是归一化随机变量(即均值和单位方差为零的变量)的集合³上的距离。

结论:相关距离在归一化随机变量集上具有第一个性质。

图1.随机变量向量表示之间的相关距离的可视化;详见附录。

五、第三个属性:三角不等式

三角不等式的陈述非常直观:从床到办公桌的直线是从床到办公桌的最短路径。如果相关距离想要满足这个性质,那么任意三个随机变量 X₁、X₂X₃的相关性必须满足不等式

因此,如果 r₂₃ 和 r₁₃ 等于 0.5,则 r₁₂ 必须大于或等于 0。很容易找到不满足此条件的随机变量的示例;请参阅我之前关于"相关性的误解"的说明中的第三种情况。换句话说,在一个距离由相关距离测量的世界里,如果你先去沙发,然后从那里到你的办公桌,你可能会发现从床到办公桌的路径更短!

结论?相关距离 满足第三个条件,它是一个正确的度量。

六、如何使其成为指标?

在归一化随机变量的集合上,很容易证明欧几里得距离可以用相关性表示为

欧几里得距离是一个度量;欧几里得距离是相关距离的平方根(成正比)。因此,相关距离的平方根是一个度量。

七、对向量表示的评论

考虑一组具有相关矩阵 Σ 的 N 个归一化随机变量。如果我们将 Σ 平方根的第 n 行(即 N-d 单位球上的 N-d 向量)视为第 n个随机变量的向量表示,那么这些向量之间的欧几里得距离(与它们之间余弦距离的平方根相同)与相应随机数之间相关距离的平方根保持相同(通过忽略尺度)变量。

八、结论

相关距离不满足三角不等式,因此不是度量。但是,它的平方根是规范化随机变量集上的度量。

脚注

¹ 相关距离广泛用于聚类,它在神经科学生物信息学等领域有应用,在编程语言中也可以作为距离选项使用,例如在 MATLAB pdist 函数中。

² 在本文中,我总是通过相关性来表示皮尔逊相关性

³ 相关距离也可以被视为随机变量等价类集合上的距离度量,当随机变量 XYR ∈ 存在 a> 0 和 b 时相互关联*,使得 X=aY+b。*

相关推荐
数模竞赛Paid answer1 小时前
2017年国赛高教杯数学建模A题CT系统参数标定及成像解题全过程文档及程序
数学建模·全国大学生数学建模竞赛·高教杯
liangbm31 小时前
数学建模笔记——动态规划
笔记·python·算法·数学建模·动态规划·背包问题·优化问题
潮汐退涨月冷风霜1 小时前
机器学习之非监督学习(四)K-means 聚类算法
学习·算法·机器学习
数模竞赛Paid answer1 小时前
2018年国赛高教杯数学建模D题汽车总装线的配置问题解题全过程文档及程序
数学建模·全国大学生数学建模竞赛·数学建模数据分析
LQS20201 小时前
机器学习与深度学习之间的区别
机器学习
B站计算机毕业设计超人2 小时前
计算机毕业设计Python+Flask微博情感分析 微博舆情预测 微博爬虫 微博大数据 舆情分析系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
爬虫·python·深度学习·算法·机器学习·自然语言处理·数据可视化
羊小猪~~2 小时前
深度学习基础案例5--VGG16人脸识别(体验学习的痛苦与乐趣)
人工智能·python·深度学习·学习·算法·机器学习·cnn
开MINI的工科男4 小时前
深蓝学院-- 量产自动驾驶中的规划控制算法 小鹏
人工智能·机器学习·自动驾驶
AI大模型知识分享5 小时前
Prompt最佳实践|如何用参考文本让ChatGPT答案更精准?
人工智能·深度学习·机器学习·chatgpt·prompt·gpt-3
小言从不摸鱼7 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt