我最喜欢的统计量:霍夫丁的D

假设你有两组数字序列,你想比较它们以测量它们之间的相关性或依赖程度。这实际上是一个非常通用的设置:这两个序列可以代表时间序列,这样你就会有一个包含三列和许多行的表格。第一列是时间戳(比如,按小时间隔),然后每个序列各有一列;第一列可以是该时间间隔内股票的平均价格,第二列可以是该时间间隔内交易的股票数量。或者,你也可以比较一个股票的百分比价格变化与另一个股票的变化。当然,它们不必是时间序列:你也可以只有两列(即,根本没有时间戳列)。第一列可以是30岁以上美国人的身高(以英寸为单位),第二列可以是同一个人的体重(以磅为单位)。或者,用一个更及时的例子,每一列可以代表来自特定大型语言模型(LLM)的某个英语句子字符串的嵌入向量。第一列可以是对于字符串“I love my 3 sons”(我爱我的三个儿子)的Mixtral 8x7B模型的嵌入向量,另一列可以是对于字符串“I cherish my 5 daughters”(我珍爱我的五个女儿)的同一个模型的嵌入向量。

在这些案例中,我们有两组数据序列,我们想要进行比较。问题在于,在最通用的设置中,我们可能事先没有任何线索关于这些关系的性质,或者甚至是否存在可以谈论的关系。如果两个序列完全独立,就像两个不同公平骰子的滚动记录呢?如果数据有点乱,包含一些极端的异常值条目,扭曲了你可能想要查看的最常见的测量类型,比如每列的平均值和方差呢?你现在可能会想,“等一下,解决这个问题的方法不就是查看相关性吗?”这确实是一个好主意,因为它是最常用的衡量两组数据集关联的方法。

为了澄清我们的术语,“相关性”通常指的是皮尔逊相关系数,其起源可以追溯到1800年代。这种相关性实际上只是数据之间的协方差的一个重新缩放,以提供一个不依赖于特定单位的度量。但是,协方差是什么呢?直观地,你首先单独观察每个序列并计算其平均值。然后看看该序列的单个数据点与该平均值的偏差(即,你只是从该序列的平均值中减去每个数据点)。然后通过将它们相乘来比较每个序列的这些度量。如果序列显示出相似的模式,即当第一个序列中的条目倾向于大于该第一个序列的平均值“同时”第二个序列也是如此,这表明它们是相关的,这些度量的乘积将会更高。(我把“同时”放在引号中,因为我们真正的意思是“在两个序列的第K个条目中”,因为这些序列不必是时间序列;谈论时间只是为了使其更易于理解)。如果序列实际上彼此没有任何关系(比如,它们只是简单记录公平骰子的滚动),那么这个乘积将接近零,因为当一个序列的条目在同一时间高于其平均值时,另一个序列的条目低于其平均值的可能性同样大。

皮尔逊相关性,通过我们重新缩放协方差以给出一个无量纲数,给你一个漂亮的、容易解释的结果:它总是在-1.0和1.0之间;如果它等于0.0,那么序列之间“没有关系”;如果是1.0,那么它们完全相关,并且步调一致。如果是-1.0,那就完全相反:一个上升时,另一个以同样的量下降。所以这听起来像是一个非常好的度量,对吗?确切的问题是什么呢?问题在于,当你使用皮尔逊相关性时,你隐含地寻找两个序列之间的一种特定类型的关系:线性关系。而且,在生活中你可能想要比较的许多事物甚至都不是模糊线性的。

让我们使用一些具体的例子来使事情更加具体化,使用我们之前提到的人的身高和体重的例子。我们预期它们之间存在大致的线性关系。当然,有一些非常矮但非常胖的人,也有一些超高但非常瘦的人,但平均来说,我们预期存在一个大致的线性关系,这样,如果你观察一个散点图,横轴表示身高,纵轴表示体重,每个点代表你样本中的一个人,如果从整个人群中无偏差地选取足够多的人,你应该能够通过拟合这些数据的线性模型来获得一个大致的模型。这个模型与实际数据点的详细比较程度被称为R平方;基本上是一个数据序列的方差有多少百分比被另一个数据序列解释了。

在这种情况下,皮尔逊相关性(Pearson’s correlation)工作得很好,因为它相对简单且容易计算(例如,你可以在Excel中轻松完成)且易于理解和解释,它已成为衡量关联或依赖性的“首选”方法。然而,还有很多其他情况,其中两组数据序列之间非常明显地存在可以理解的关联,但并不是像那样的线性关系。例如,想象一个成年人的体重和他们在50码短跑比赛中达到的最高速度,其中他们尽可能地跑得快。人们可以想象,非常瘦的人可能没有那么多快速收缩的腿部肌肉,因此可能会比较慢,然后随着体重的增加,平均最高速度首先增加。但显然,非常超重的人跑步会更慢,所以平均最高速度在某一点后开始下降,一旦体重达到非常严重的肥胖级别,速度会急剧下降。简而言之,这不是你能很好地拟合一条线的情况。而皮尔逊相关性的问题在于,它在这种情况下是不可靠的。

想了解更多,请访问:https://t.cn/A6YNOH9B

今日小记:
1.翻了俩微博号发的近几年的微博,我真是嘴碎,但是记录真的很有趣,我也没想到当时为什么会看到想到并发出来那些文字
2.工作之后,除了工作就是爬山徒步练琴,外加减肥,还有发呆(今天跑到一个空的会议室目光呆滞了5分钟。人家买车买房我买琴,成年人了还是整天瞎搞
3.开工第一周十分疲惫,没有时间思考、记录,饭吃不下觉睡不着,倘若人生继续这样疲惫着生活,那我也没有什么办法
4.某次领导和我说少看言情小说,多看点技术相关的书,言情小说确实不咋看,都是看文学历史书外加文艺片儿还有余华老师的,我看起来像是那种看言情小说的吗?(确实有点儿像,不是不看,但就看过几部,看了会走不出来,走出来的心理建设太难做了)
5.深圳是个好地方,我的感触是眼里没有光,心里寡淡如水只想爬山看海,激情退散热情还在,没时间emo,处处都是孤独,但白天夜晚走在外面确一点儿也不孤独。
6.白天努力做好e人,晚上开启i人世界。
感谢piano,坐在面前我平淡如水,无欲无求。
7.说要极简生活(搬了两次家累惨了),但今年也安排了几件购物清单(物品又增加了),快买完了,心急了哈,留一个下半年买。

我怕我会忘记所以趁我还记得 在无人角落记录下来 仅供回忆

一身白 肌肉 睿智 健谈 是我对他第一印象 笑起来像我的伴睡小狐狸 狡黠但可爱 呼吸平稳淡定从容的面对我的兵荒马乱

“这是爬山吗”
“我不知道啊 做攻略但没研究 爬山…有益身体健康”
“好 主要是见你 做什么无所谓”
“真的吗哥哥 嫂子不会生气吧?”
“…”

我经常说一些无厘头的话例如:

“如果你不那么聪明或许我们会在一起”
“你太慕强 不聪明你不会喜欢我”

我气笑 太聪明也未必是好事 把我看透 瓦解我无理取闹下隐藏的试探

下上的时候路过平台 天气出奇的好 他抱着我 像抱一团毛绒玩具 力气大的像要把我揉进身体里 感受到他跳动的心脏 很有趣 居然像寺庙撞钟似的有力又平缓 他闷在我颈肩声音低低的问

“跟我相处会很累吗 猜不透我在想什么”
“不会 你不讨厌我就好了”
“傻”
“想太多会不开心的”

我由心的说 如果去细究你对我的感觉或者我们的以后 得到的都是过于赤裸的坏结果 我不想承受 所以不想

“想你跟我去南京 陪着我谈事”
“嗯…你入赘四川吧”
“如果你有两亿资产可以”
“我没有 你有的话我会宛如厉鬼缠着你”

腰间被狠狠拧了一把 痛

爬到石牌前 古文晦涩难懂 他低头看我 饶有兴趣

“真的163吗”
“啊!你看 政修 叙功 我认识这几个字!”

不远处小朋友似懂非懂看着我 他拉着我走开

“别误人子弟”
“我认识啊!真的!”
“念反了”

嗯…没熟人不丢人不丢人我默念

坐在长椅上晒太阳 我靠在他臂膀 感受回来后第一次的暖阳 我感慨道

“你和我想的不一样”
“为什么”
“你很健谈 很好看 很聪明”
“你在跟谁讲话?”
“你”
“看着我说?”
“不要 ”

不对视讲话是不礼貌 见色起义强吻是很不礼貌 我想还是不礼貌比较好 我不能当色狼

都怪这风 吹乱我的发依附在他身上 怎么心也乱乱的

在他注视下我鼓起勇气对视三秒

“啊啊啊啊不看 我真的害羞啊啊啊啊”

扭头 挡脸 身体开始发热缺氧

“脸红因为看到了太阳”

我轻轻的说 我看到了太阳

约会前着急忙慌的赶来 连妆容都没来得及细看 贴了三次假睫毛都不尽人意 最后淡妆去的

“这是什么”

他捻起我米色高领内搭上粘着的假睫毛

“…”

疯了 想回家 好丢人 我的懒人三簇假睫毛

“这儿…”
“等一下!!我自己来!!!”

我捻下剩余俩簇藏在手心 头快埋到土里 真是蠢得够可以的

他笑着看着我 或许是以前没遇到过这么呆傻的 竟有些宠溺的意味 摸摸我的头 跟我说不用紧张

不紧张…才怪

他半眯着眼睛回答我的问题 对他我像好奇宝宝 什么都想了解

“那你会有青梅竹马吗?”
“什么?”
“就是 阿姨的闺蜜的女儿 你的未婚妻”
“…你一天到晚在看什么东西”
“你说说 说说 我真的想知道”
“我读书很跳跃 北方 南京 加拿大 美国 没有青梅竹马 妈妈有闺蜜”
“那会举行舞会吗?”
“不会 很忙 普通家庭”
“如果你以后白月光复合 我想说一句话”
“什么”
“小姐! 我好久没有看到少爷笑~得~这~么~开~心~啦~”

闻言他气笑 搂着我的胳膊收紧 蓄意报复似的捏我的手心

“This is the first time I see the young master, smiling so happily!”
“以防白月光是留学生 英文版我也会牢记的”

我郑重其事

写到这 又有点想哭 还有好多东西无法表达 或许我对你的喜欢比我想象的多 你从天而降把我从浑浑噩噩的角落拉出来晒太阳 你想我变好 想我不再哭泣 想我有一个人也能对抗世界的勇气 我因你的好生出骨肉 支撑摇摇欲坠的世界 你很好 无论跟谁在一起都会幸福 我也会变好 想热烈生活的心脏疯狂跳动 或许我们还会再见面 我会变成更好的自己 因为你 为了我自己

“can i get a kiss?”

“sure”

温热柔软的唇伴随creed 银色山泉香水味席卷我的感知

永别 my crush


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 一个人,无论经历怎样的风雨,有过怎样的生活,奋进过,就是成功;不悔过,就是值得。不管困境还是逆境,都能酿出一个发光的灵魂,守一杯净土,盈一眸恬淡,将一颗尘心静静
  • /所谓“登高能赋”这句话的意思,是在说明看到外界的景物可以引起内心的感情。”这幅书法是罕见的大字行草,字形倾侧动荡,忽大忽小,用细笔写大字,运墨燥湿互济,锋势劲
  • 也不知道該罵策劃是天才還是腳本是奇才,這遊戲可真就能把人愁到最後一秒,我想了一天說不整真結局了就給我看這玩意?最重要的是最後真是氣人氣到最後一秒,這結局等同於空
  • #饮食健身记录# 第3️⃣4️⃣天‍♀️体重update:51.1kg我是真的没想到也不知道该高兴还是难过关键是我没有刻意少吃或者节食精米精面全吃甚至为了养胃直
  • 10只业绩暴增的行业优质个股(建议关注)1、远兴能源(煤炭+尿素)现价9.27元,市值340.5亿,流通值308.5亿,市盈率15.47净利润同比增7169.1
  • 我陪着你呢,我们在呢,也只有我们能互相依靠啦,所以,别忘了我,别泯灭,好好藏起来就好啦,什么正常人应该怎么做不正常的,当如此,孑然尔。现在觉得 有人陪着就已经很
  • 准备了一点点小礼物给老婆们不要嫌弃哦时间:截止到1.6(我五号才回家) 1️⃣2️⃣是给好友圈准备的,3️⃣都有机会哦[赢牛奶] 先说好,正经人就是个贫苦的女大
  • 美食篇 之汕头甜品篇图1⃣️2⃣️『叶至咖啡』、、蛋黄酱咸奶油卷 & 桃桃的茶图3⃣️『 西西里甜点花园 』 、、蛋糕名为“秋”图4⃣️『轻沐』、
  • 与苏轼齐名的黄庭坚,也十分重视饮食,并将当时士大夫对于饮食生活的理解和认识系统化,写成《士大夫食时五观》饮食生活的下里巴人,变成了与道德等量齐观的“文章”。此前
  • #福慧行[超话]#智慧人生故事(68)--船在水中不知流 一天,村子里一个人满脸愁容地去找当地寺庙里的住持老和尚诉苦,他说:“师父啊!我家太穷困了,家里的环境
  • 4. 有趣的灵魂足够撑的起单身的岁月。3. 被人珍惜的时候希望你别装b。
  • #防身凑满减#蓝牙耳机1️⃣网易云音乐ME01,领149-50全店通,到手99:凑200-20跨店满减,凑完84.1左右(占149)灰/红/白色可选2️⃣网易云
  • 我的妈呀!!
  • 还好我们这次租的房子比较大,于是和明把一些东西拉到家里来了,准备拍视频开直播,这也是计划很久的事情,一定要做起来。估计你没啥想法,或者有想法,就是觉得氢能源概念
  • 小的时候,我总是爱站在上霜的窗前看窗花,从窗花的每一根线条里,编织着自己的童话故事,幻想着,在窗花组成的大森林里驶出一辆马爬犁,上面坐着我最想见到的人•••••
  • 人生,有很多时候,需要的不仅仅是无畏与执着,更是一笑而过的淡定。不急不躁,忍辱不辩,对众生之苦充满恻隐与怜悯之念,淡然而无畏,慈悲而祥和,那就是觉者永恒的心态。
  • #吴磊[超话]#wl#反复爱上吴磊的30天#DAY_13 最喜欢的台词是《盛夏未来》里的“如果此时此刻,你喜欢的人,刚好也喜欢你,那么现在,就是未来” 年少的我
  • 然后他去录节目的时候我就等着他,等他出来的时候,我又一把抱住他,伯贤一脸鄙夷的看着我说:我刚跟你打招呼你都没看见,就一直往吴世勋怀里跑…[汗]然后后面还梦到我妈
  • #阳光信用##每日一善#人生是由咸甜苦辣所组成,学会适应,让你的环境变得明亮;学会调节,让你的心情不再忧伤;学会宽容,让你的生活没有烦恼;学会奉献,让你的人生充
  • 该种领型长短宽窄适中,开角的角度适中,能完整地露出领结,很适合打领带穿,自温莎公爵穿火它以来,温莎领一直是最流行的一种领型,你用它绝对不会出错!如果你有一张长脸