我最喜欢的统计量:霍夫丁的D
假设你有两组数字序列,你想比较它们以测量它们之间的相关性或依赖程度。这实际上是一个非常通用的设置:这两个序列可以代表时间序列,这样你就会有一个包含三列和许多行的表格。第一列是时间戳(比如,按小时间隔),然后每个序列各有一列;第一列可以是该时间间隔内股票的平均价格,第二列可以是该时间间隔内交易的股票数量。或者,你也可以比较一个股票的百分比价格变化与另一个股票的变化。当然,它们不必是时间序列:你也可以只有两列(即,根本没有时间戳列)。第一列可以是30岁以上美国人的身高(以英寸为单位),第二列可以是同一个人的体重(以磅为单位)。或者,用一个更及时的例子,每一列可以代表来自特定大型语言模型(LLM)的某个英语句子字符串的嵌入向量。第一列可以是对于字符串“I love my 3 sons”(我爱我的三个儿子)的Mixtral 8x7B模型的嵌入向量,另一列可以是对于字符串“I cherish my 5 daughters”(我珍爱我的五个女儿)的同一个模型的嵌入向量。
在这些案例中,我们有两组数据序列,我们想要进行比较。问题在于,在最通用的设置中,我们可能事先没有任何线索关于这些关系的性质,或者甚至是否存在可以谈论的关系。如果两个序列完全独立,就像两个不同公平骰子的滚动记录呢?如果数据有点乱,包含一些极端的异常值条目,扭曲了你可能想要查看的最常见的测量类型,比如每列的平均值和方差呢?你现在可能会想,“等一下,解决这个问题的方法不就是查看相关性吗?”这确实是一个好主意,因为它是最常用的衡量两组数据集关联的方法。
为了澄清我们的术语,“相关性”通常指的是皮尔逊相关系数,其起源可以追溯到1800年代。这种相关性实际上只是数据之间的协方差的一个重新缩放,以提供一个不依赖于特定单位的度量。但是,协方差是什么呢?直观地,你首先单独观察每个序列并计算其平均值。然后看看该序列的单个数据点与该平均值的偏差(即,你只是从该序列的平均值中减去每个数据点)。然后通过将它们相乘来比较每个序列的这些度量。如果序列显示出相似的模式,即当第一个序列中的条目倾向于大于该第一个序列的平均值“同时”第二个序列也是如此,这表明它们是相关的,这些度量的乘积将会更高。(我把“同时”放在引号中,因为我们真正的意思是“在两个序列的第K个条目中”,因为这些序列不必是时间序列;谈论时间只是为了使其更易于理解)。如果序列实际上彼此没有任何关系(比如,它们只是简单记录公平骰子的滚动),那么这个乘积将接近零,因为当一个序列的条目在同一时间高于其平均值时,另一个序列的条目低于其平均值的可能性同样大。
皮尔逊相关性,通过我们重新缩放协方差以给出一个无量纲数,给你一个漂亮的、容易解释的结果:它总是在-1.0和1.0之间;如果它等于0.0,那么序列之间“没有关系”;如果是1.0,那么它们完全相关,并且步调一致。如果是-1.0,那就完全相反:一个上升时,另一个以同样的量下降。所以这听起来像是一个非常好的度量,对吗?确切的问题是什么呢?问题在于,当你使用皮尔逊相关性时,你隐含地寻找两个序列之间的一种特定类型的关系:线性关系。而且,在生活中你可能想要比较的许多事物甚至都不是模糊线性的。
让我们使用一些具体的例子来使事情更加具体化,使用我们之前提到的人的身高和体重的例子。我们预期它们之间存在大致的线性关系。当然,有一些非常矮但非常胖的人,也有一些超高但非常瘦的人,但平均来说,我们预期存在一个大致的线性关系,这样,如果你观察一个散点图,横轴表示身高,纵轴表示体重,每个点代表你样本中的一个人,如果从整个人群中无偏差地选取足够多的人,你应该能够通过拟合这些数据的线性模型来获得一个大致的模型。这个模型与实际数据点的详细比较程度被称为R平方;基本上是一个数据序列的方差有多少百分比被另一个数据序列解释了。
在这种情况下,皮尔逊相关性(Pearson’s correlation)工作得很好,因为它相对简单且容易计算(例如,你可以在Excel中轻松完成)且易于理解和解释,它已成为衡量关联或依赖性的“首选”方法。然而,还有很多其他情况,其中两组数据序列之间非常明显地存在可以理解的关联,但并不是像那样的线性关系。例如,想象一个成年人的体重和他们在50码短跑比赛中达到的最高速度,其中他们尽可能地跑得快。人们可以想象,非常瘦的人可能没有那么多快速收缩的腿部肌肉,因此可能会比较慢,然后随着体重的增加,平均最高速度首先增加。但显然,非常超重的人跑步会更慢,所以平均最高速度在某一点后开始下降,一旦体重达到非常严重的肥胖级别,速度会急剧下降。简而言之,这不是你能很好地拟合一条线的情况。而皮尔逊相关性的问题在于,它在这种情况下是不可靠的。
想了解更多,请访问:https://t.cn/A6YNOH9B
假设你有两组数字序列,你想比较它们以测量它们之间的相关性或依赖程度。这实际上是一个非常通用的设置:这两个序列可以代表时间序列,这样你就会有一个包含三列和许多行的表格。第一列是时间戳(比如,按小时间隔),然后每个序列各有一列;第一列可以是该时间间隔内股票的平均价格,第二列可以是该时间间隔内交易的股票数量。或者,你也可以比较一个股票的百分比价格变化与另一个股票的变化。当然,它们不必是时间序列:你也可以只有两列(即,根本没有时间戳列)。第一列可以是30岁以上美国人的身高(以英寸为单位),第二列可以是同一个人的体重(以磅为单位)。或者,用一个更及时的例子,每一列可以代表来自特定大型语言模型(LLM)的某个英语句子字符串的嵌入向量。第一列可以是对于字符串“I love my 3 sons”(我爱我的三个儿子)的Mixtral 8x7B模型的嵌入向量,另一列可以是对于字符串“I cherish my 5 daughters”(我珍爱我的五个女儿)的同一个模型的嵌入向量。
在这些案例中,我们有两组数据序列,我们想要进行比较。问题在于,在最通用的设置中,我们可能事先没有任何线索关于这些关系的性质,或者甚至是否存在可以谈论的关系。如果两个序列完全独立,就像两个不同公平骰子的滚动记录呢?如果数据有点乱,包含一些极端的异常值条目,扭曲了你可能想要查看的最常见的测量类型,比如每列的平均值和方差呢?你现在可能会想,“等一下,解决这个问题的方法不就是查看相关性吗?”这确实是一个好主意,因为它是最常用的衡量两组数据集关联的方法。
为了澄清我们的术语,“相关性”通常指的是皮尔逊相关系数,其起源可以追溯到1800年代。这种相关性实际上只是数据之间的协方差的一个重新缩放,以提供一个不依赖于特定单位的度量。但是,协方差是什么呢?直观地,你首先单独观察每个序列并计算其平均值。然后看看该序列的单个数据点与该平均值的偏差(即,你只是从该序列的平均值中减去每个数据点)。然后通过将它们相乘来比较每个序列的这些度量。如果序列显示出相似的模式,即当第一个序列中的条目倾向于大于该第一个序列的平均值“同时”第二个序列也是如此,这表明它们是相关的,这些度量的乘积将会更高。(我把“同时”放在引号中,因为我们真正的意思是“在两个序列的第K个条目中”,因为这些序列不必是时间序列;谈论时间只是为了使其更易于理解)。如果序列实际上彼此没有任何关系(比如,它们只是简单记录公平骰子的滚动),那么这个乘积将接近零,因为当一个序列的条目在同一时间高于其平均值时,另一个序列的条目低于其平均值的可能性同样大。
皮尔逊相关性,通过我们重新缩放协方差以给出一个无量纲数,给你一个漂亮的、容易解释的结果:它总是在-1.0和1.0之间;如果它等于0.0,那么序列之间“没有关系”;如果是1.0,那么它们完全相关,并且步调一致。如果是-1.0,那就完全相反:一个上升时,另一个以同样的量下降。所以这听起来像是一个非常好的度量,对吗?确切的问题是什么呢?问题在于,当你使用皮尔逊相关性时,你隐含地寻找两个序列之间的一种特定类型的关系:线性关系。而且,在生活中你可能想要比较的许多事物甚至都不是模糊线性的。
让我们使用一些具体的例子来使事情更加具体化,使用我们之前提到的人的身高和体重的例子。我们预期它们之间存在大致的线性关系。当然,有一些非常矮但非常胖的人,也有一些超高但非常瘦的人,但平均来说,我们预期存在一个大致的线性关系,这样,如果你观察一个散点图,横轴表示身高,纵轴表示体重,每个点代表你样本中的一个人,如果从整个人群中无偏差地选取足够多的人,你应该能够通过拟合这些数据的线性模型来获得一个大致的模型。这个模型与实际数据点的详细比较程度被称为R平方;基本上是一个数据序列的方差有多少百分比被另一个数据序列解释了。
在这种情况下,皮尔逊相关性(Pearson’s correlation)工作得很好,因为它相对简单且容易计算(例如,你可以在Excel中轻松完成)且易于理解和解释,它已成为衡量关联或依赖性的“首选”方法。然而,还有很多其他情况,其中两组数据序列之间非常明显地存在可以理解的关联,但并不是像那样的线性关系。例如,想象一个成年人的体重和他们在50码短跑比赛中达到的最高速度,其中他们尽可能地跑得快。人们可以想象,非常瘦的人可能没有那么多快速收缩的腿部肌肉,因此可能会比较慢,然后随着体重的增加,平均最高速度首先增加。但显然,非常超重的人跑步会更慢,所以平均最高速度在某一点后开始下降,一旦体重达到非常严重的肥胖级别,速度会急剧下降。简而言之,这不是你能很好地拟合一条线的情况。而皮尔逊相关性的问题在于,它在这种情况下是不可靠的。
想了解更多,请访问:https://t.cn/A6YNOH9B
今日小记:
1.翻了俩微博号发的近几年的微博,我真是嘴碎,但是记录真的很有趣,我也没想到当时为什么会看到想到并发出来那些文字
2.工作之后,除了工作就是爬山徒步练琴,外加减肥,还有发呆(今天跑到一个空的会议室目光呆滞了5分钟。人家买车买房我买琴,成年人了还是整天瞎搞
3.开工第一周十分疲惫,没有时间思考、记录,饭吃不下觉睡不着,倘若人生继续这样疲惫着生活,那我也没有什么办法
4.某次领导和我说少看言情小说,多看点技术相关的书,言情小说确实不咋看,都是看文学历史书外加文艺片儿还有余华老师的,我看起来像是那种看言情小说的吗?(确实有点儿像,不是不看,但就看过几部,看了会走不出来,走出来的心理建设太难做了)
5.深圳是个好地方,我的感触是眼里没有光,心里寡淡如水只想爬山看海,激情退散热情还在,没时间emo,处处都是孤独,但白天夜晚走在外面确一点儿也不孤独。
6.白天努力做好e人,晚上开启i人世界。
感谢piano,坐在面前我平淡如水,无欲无求。
7.说要极简生活(搬了两次家累惨了),但今年也安排了几件购物清单(物品又增加了),快买完了,心急了哈,留一个下半年买。
1.翻了俩微博号发的近几年的微博,我真是嘴碎,但是记录真的很有趣,我也没想到当时为什么会看到想到并发出来那些文字
2.工作之后,除了工作就是爬山徒步练琴,外加减肥,还有发呆(今天跑到一个空的会议室目光呆滞了5分钟。人家买车买房我买琴,成年人了还是整天瞎搞
3.开工第一周十分疲惫,没有时间思考、记录,饭吃不下觉睡不着,倘若人生继续这样疲惫着生活,那我也没有什么办法
4.某次领导和我说少看言情小说,多看点技术相关的书,言情小说确实不咋看,都是看文学历史书外加文艺片儿还有余华老师的,我看起来像是那种看言情小说的吗?(确实有点儿像,不是不看,但就看过几部,看了会走不出来,走出来的心理建设太难做了)
5.深圳是个好地方,我的感触是眼里没有光,心里寡淡如水只想爬山看海,激情退散热情还在,没时间emo,处处都是孤独,但白天夜晚走在外面确一点儿也不孤独。
6.白天努力做好e人,晚上开启i人世界。
感谢piano,坐在面前我平淡如水,无欲无求。
7.说要极简生活(搬了两次家累惨了),但今年也安排了几件购物清单(物品又增加了),快买完了,心急了哈,留一个下半年买。
我怕我会忘记所以趁我还记得 在无人角落记录下来 仅供回忆
一身白 肌肉 睿智 健谈 是我对他第一印象 笑起来像我的伴睡小狐狸 狡黠但可爱 呼吸平稳淡定从容的面对我的兵荒马乱
“这是爬山吗”
“我不知道啊 做攻略但没研究 爬山…有益身体健康”
“好 主要是见你 做什么无所谓”
“真的吗哥哥 嫂子不会生气吧?”
“…”
我经常说一些无厘头的话例如:
“如果你不那么聪明或许我们会在一起”
“你太慕强 不聪明你不会喜欢我”
我气笑 太聪明也未必是好事 把我看透 瓦解我无理取闹下隐藏的试探
下上的时候路过平台 天气出奇的好 他抱着我 像抱一团毛绒玩具 力气大的像要把我揉进身体里 感受到他跳动的心脏 很有趣 居然像寺庙撞钟似的有力又平缓 他闷在我颈肩声音低低的问
“跟我相处会很累吗 猜不透我在想什么”
“不会 你不讨厌我就好了”
“傻”
“想太多会不开心的”
我由心的说 如果去细究你对我的感觉或者我们的以后 得到的都是过于赤裸的坏结果 我不想承受 所以不想
“想你跟我去南京 陪着我谈事”
“嗯…你入赘四川吧”
“如果你有两亿资产可以”
“我没有 你有的话我会宛如厉鬼缠着你”
腰间被狠狠拧了一把 痛
爬到石牌前 古文晦涩难懂 他低头看我 饶有兴趣
“真的163吗”
“啊!你看 政修 叙功 我认识这几个字!”
不远处小朋友似懂非懂看着我 他拉着我走开
“别误人子弟”
“我认识啊!真的!”
“念反了”
嗯…没熟人不丢人不丢人我默念
坐在长椅上晒太阳 我靠在他臂膀 感受回来后第一次的暖阳 我感慨道
“你和我想的不一样”
“为什么”
“你很健谈 很好看 很聪明”
“你在跟谁讲话?”
“你”
“看着我说?”
“不要 ”
不对视讲话是不礼貌 见色起义强吻是很不礼貌 我想还是不礼貌比较好 我不能当色狼
都怪这风 吹乱我的发依附在他身上 怎么心也乱乱的
在他注视下我鼓起勇气对视三秒
“啊啊啊啊不看 我真的害羞啊啊啊啊”
扭头 挡脸 身体开始发热缺氧
“脸红因为看到了太阳”
我轻轻的说 我看到了太阳
约会前着急忙慌的赶来 连妆容都没来得及细看 贴了三次假睫毛都不尽人意 最后淡妆去的
“这是什么”
他捻起我米色高领内搭上粘着的假睫毛
“…”
疯了 想回家 好丢人 我的懒人三簇假睫毛
“这儿…”
“等一下!!我自己来!!!”
我捻下剩余俩簇藏在手心 头快埋到土里 真是蠢得够可以的
他笑着看着我 或许是以前没遇到过这么呆傻的 竟有些宠溺的意味 摸摸我的头 跟我说不用紧张
不紧张…才怪
他半眯着眼睛回答我的问题 对他我像好奇宝宝 什么都想了解
“那你会有青梅竹马吗?”
“什么?”
“就是 阿姨的闺蜜的女儿 你的未婚妻”
“…你一天到晚在看什么东西”
“你说说 说说 我真的想知道”
“我读书很跳跃 北方 南京 加拿大 美国 没有青梅竹马 妈妈有闺蜜”
“那会举行舞会吗?”
“不会 很忙 普通家庭”
“如果你以后白月光复合 我想说一句话”
“什么”
“小姐! 我好久没有看到少爷笑~得~这~么~开~心~啦~”
闻言他气笑 搂着我的胳膊收紧 蓄意报复似的捏我的手心
“This is the first time I see the young master, smiling so happily!”
“以防白月光是留学生 英文版我也会牢记的”
我郑重其事
写到这 又有点想哭 还有好多东西无法表达 或许我对你的喜欢比我想象的多 你从天而降把我从浑浑噩噩的角落拉出来晒太阳 你想我变好 想我不再哭泣 想我有一个人也能对抗世界的勇气 我因你的好生出骨肉 支撑摇摇欲坠的世界 你很好 无论跟谁在一起都会幸福 我也会变好 想热烈生活的心脏疯狂跳动 或许我们还会再见面 我会变成更好的自己 因为你 为了我自己
“can i get a kiss?”
“sure”
温热柔软的唇伴随creed 银色山泉香水味席卷我的感知
永别 my crush
一身白 肌肉 睿智 健谈 是我对他第一印象 笑起来像我的伴睡小狐狸 狡黠但可爱 呼吸平稳淡定从容的面对我的兵荒马乱
“这是爬山吗”
“我不知道啊 做攻略但没研究 爬山…有益身体健康”
“好 主要是见你 做什么无所谓”
“真的吗哥哥 嫂子不会生气吧?”
“…”
我经常说一些无厘头的话例如:
“如果你不那么聪明或许我们会在一起”
“你太慕强 不聪明你不会喜欢我”
我气笑 太聪明也未必是好事 把我看透 瓦解我无理取闹下隐藏的试探
下上的时候路过平台 天气出奇的好 他抱着我 像抱一团毛绒玩具 力气大的像要把我揉进身体里 感受到他跳动的心脏 很有趣 居然像寺庙撞钟似的有力又平缓 他闷在我颈肩声音低低的问
“跟我相处会很累吗 猜不透我在想什么”
“不会 你不讨厌我就好了”
“傻”
“想太多会不开心的”
我由心的说 如果去细究你对我的感觉或者我们的以后 得到的都是过于赤裸的坏结果 我不想承受 所以不想
“想你跟我去南京 陪着我谈事”
“嗯…你入赘四川吧”
“如果你有两亿资产可以”
“我没有 你有的话我会宛如厉鬼缠着你”
腰间被狠狠拧了一把 痛
爬到石牌前 古文晦涩难懂 他低头看我 饶有兴趣
“真的163吗”
“啊!你看 政修 叙功 我认识这几个字!”
不远处小朋友似懂非懂看着我 他拉着我走开
“别误人子弟”
“我认识啊!真的!”
“念反了”
嗯…没熟人不丢人不丢人我默念
坐在长椅上晒太阳 我靠在他臂膀 感受回来后第一次的暖阳 我感慨道
“你和我想的不一样”
“为什么”
“你很健谈 很好看 很聪明”
“你在跟谁讲话?”
“你”
“看着我说?”
“不要 ”
不对视讲话是不礼貌 见色起义强吻是很不礼貌 我想还是不礼貌比较好 我不能当色狼
都怪这风 吹乱我的发依附在他身上 怎么心也乱乱的
在他注视下我鼓起勇气对视三秒
“啊啊啊啊不看 我真的害羞啊啊啊啊”
扭头 挡脸 身体开始发热缺氧
“脸红因为看到了太阳”
我轻轻的说 我看到了太阳
约会前着急忙慌的赶来 连妆容都没来得及细看 贴了三次假睫毛都不尽人意 最后淡妆去的
“这是什么”
他捻起我米色高领内搭上粘着的假睫毛
“…”
疯了 想回家 好丢人 我的懒人三簇假睫毛
“这儿…”
“等一下!!我自己来!!!”
我捻下剩余俩簇藏在手心 头快埋到土里 真是蠢得够可以的
他笑着看着我 或许是以前没遇到过这么呆傻的 竟有些宠溺的意味 摸摸我的头 跟我说不用紧张
不紧张…才怪
他半眯着眼睛回答我的问题 对他我像好奇宝宝 什么都想了解
“那你会有青梅竹马吗?”
“什么?”
“就是 阿姨的闺蜜的女儿 你的未婚妻”
“…你一天到晚在看什么东西”
“你说说 说说 我真的想知道”
“我读书很跳跃 北方 南京 加拿大 美国 没有青梅竹马 妈妈有闺蜜”
“那会举行舞会吗?”
“不会 很忙 普通家庭”
“如果你以后白月光复合 我想说一句话”
“什么”
“小姐! 我好久没有看到少爷笑~得~这~么~开~心~啦~”
闻言他气笑 搂着我的胳膊收紧 蓄意报复似的捏我的手心
“This is the first time I see the young master, smiling so happily!”
“以防白月光是留学生 英文版我也会牢记的”
我郑重其事
写到这 又有点想哭 还有好多东西无法表达 或许我对你的喜欢比我想象的多 你从天而降把我从浑浑噩噩的角落拉出来晒太阳 你想我变好 想我不再哭泣 想我有一个人也能对抗世界的勇气 我因你的好生出骨肉 支撑摇摇欲坠的世界 你很好 无论跟谁在一起都会幸福 我也会变好 想热烈生活的心脏疯狂跳动 或许我们还会再见面 我会变成更好的自己 因为你 为了我自己
“can i get a kiss?”
“sure”
温热柔软的唇伴随creed 银色山泉香水味席卷我的感知
永别 my crush
✋热门推荐