关于杜兰特和库里得分效率对比贴中的Stable数据说明。
为什么再次发这样的贴呢,因为我发现最近@我的球迷很多都在质疑此前杜库本赛季得分效率对比那张图中的Stable 3分命中率的疑问。
虽然我此前在原帖中也回复了大量的解释,也单独发过关于Stable数据模型的帖子。
但是为了解除大家的疑惑,也避免有心之人以谣传谣,所以打算给理性客观的且愿意认真了解数据的球迷写这样一篇贴,也不希望BBALL这样优秀的数据网站,被传成了野鸡数据网站。
然后也方便下次有人对此类数据有疑问时,省时省力的直接回复此贴的链接。
首先我们先简单介绍一下BBALL这个网站。Home - Basketball Index (bball-index.com)
BBALL的全称为Basketball Index,但是一般国内外使用它们数据的朋友都会以BBALL简称。它是一家包含免费数据和付费数据的多门类数据网站,国外很多平台和数据分析师以及媒体人,包括NBA Univercity,球探,甚至球员都会经常使用该网站,国内比较著名的【篮圈即是原点】和【静易墨】也多次使用过BBALL的数据。
大家经常在虎扑看到的这样的坐标图,就是该网站比较特色的一个可视化数据比较工具。
它们家的数据类型非常多,包括此时21赛季虎扑也发过它们家的一种数据,就是Spacing数据,也就是球场空间数据,那会应该是和库里所在当时勇士队空间比较便秘的时候发过。这里就不一一赘述了。
然后我们来聊聊此前所发的杜兰特和库里得分效率对比图里面的大家感到质疑的Stable数据。
可以看到,图中有大量Stable前缀的数据。那到底什么是Stable数据呢?Stable的英文实际上就是“稳定的”,在BBALL官方的词条解释中能找到简介和对应的专门大佬介绍此数据模型的网站。
Glossary - Basketball Index (bball-index.com)
NBA Stabilization Rates and the Padding Approach | Kostya Medvedovsky's Blog (kmedved.com)
有兴趣研究数据的球迷可以点击链接自行前往详细了解。
言简意赅的话,Stable数据为了优化数据在小样本下的不稳定性,让数据更贴近球员的真实水平,但是并不会让该数据很糟糕的球员变得很厉害,很厉害的球员变得不那么厉害。具体模型解释起来也很复杂,我也担心没办法精准的传达到位,也并非按照有些球迷的解释把高命中率的人变低,低命中率的人变高,因为它整个数据计算系数迭代是不同的。
这个示意图是19-20赛季,邓肯罗宾逊的三分命中率在赛季样本不断进行时的变化,蓝色线是实际上的命中率起伏,红色线则是优化过后的。
那为什么大家第一眼看到这个数据,会有这么大的疑惑呢,很多人甚至会怀疑是我刻意修改了数据,编造数据,甚至是自己订制了数据模型。
但其实是高估了我的能力,我从来没有做过数据模型,虽然我对NBA各种数据都比较了解和使用过,因为国外有很多付费数据网站,没记错的话,至少有5-6个数据网站是我充值了会员并在使用的。我更多的工作是查询,搬运,翻译,制图,然后分享给大家。
其实我也此前也多次回复过强者恒强这句话,也对这句话进行了解释。就拿图中的Stable三分命中率来简单举例:
在当时,库里的三分命中率实际上数据是40%+,杜兰特是33%左右。但是在Stable数据优化过后,库里的三分命中率变成了39%,而杜兰特变成了35%。
乍一看,库里的三分命中率严重缩水,而杜兰特的三分命中率反而提高了,但实际上这是因为Stable数据下,数据之间的系数关系不一样。传统三分命中率,如果你是39%,我是35%,这中间的人员跨度不会有那么大,因为基本上是按照个位数进行比较的.
但是Stable的三分命中率下,是按照小数点后两位在进行跨度。
可以看到,光是在38%的这个范畴里,就高达9名球员,从38.03到38.86,如果按照常规的数据思维去看待这种数据的话,自然会产生“缩水的概念”。
而且有球迷在此帖的帖子里解释【该数据对弱的球员进行命中率提升,对强的球员进行削弱】也起到了很大的误导作用,这也是因为简单的从命中率上去判断的失误。
在我当时发这个数据的时候,按照常规三分命中率排名,库里排在联盟第15位,但是按照Stable三分命中率排名,库里高居联盟第2位。
而你也可以看到,35%左右的杜兰特实际上排在联盟第159位。
而原本三分命中率很差的RJ巴雷特和詹姆斯,依然是排在倒数前三。
所以Stable数据,并非像很多人解释的那样,会让厉害的人变弱,让差的人变好。它本身就是一个为了优化数据在小样本下不稳定而被创造出来的数据模型,又何必让数据变得更不稳定呢?
更何况,作为一个知名且专业性极高的付费数据网站,如果Stable数据不够客观合理的话,他们何苦给自己大量的数据引进这种模型,去砸自己的招牌呢?
以及很多库里球迷质疑我【挑选数据】【细分数据】【造假数据】,然而实际上我是搬运了BBALL效率数据对比板块下的所有数据,并未做任何修改。
包括库里缺失的部分,我也进行了标注,并且并未进行绿色高亮对比。(并且也给BBALL官方进行了反馈,BBALL的数据更新时而快时而慢,有时候一天更,有时候3天更)
包括有球迷提到的,我刻意把中距离数据细分成中远距离和中近距离,为了给杜兰特多一点领先,这实际上本身就是BBALL官方的原生数据。而且实际上对比此前赛季的球员对比工具,会发现其实很多数据还没有加入进来,一般会在样本量比较大,或者是临近赛季末的时候才会把各种数据补全,例如中距离,会有一个综合的 Middle Game Talent的数据,但是目前还没有更新出来。
相信认真仔细看完此篇文章的朋友,应该就能明白Stable数据是什么,也能知道我是否对数据进行了修改和造假筛选等行为。
不过怎么说呢,永远叫不醒装睡的人,一旦你做的事情触碰到了他们的利益关系,无论你做什么解释,也都是徒劳的,他们也总能找到新的切入点和角度来想法设法攻击和污蔑你,降低你的公信度,这样自然而然你所发的数据,即使对他们所喜欢的球员不利,只要他们给你冠上“假数据”的名号,这样不利也就不存在了。
但是我相信,理性客观的球迷还是有非常多,就例如我此前制作的塔图姆和东契奇的对比,就没有出现过类似的数据造假质疑声。
我发这篇帖子的初衷,也并不是为了给本身对数据真假其实并不在意的那些人,而是发给那些真正想要了解数据也能客观看待的数据的理性球迷。
最后。
”如果你是一个经常抨击其他球迷/球星过分追求和在意数据,那你是否也变成了自己所讨厌的那个样子?“
另外,为了使之前这张图看起来更直观,也避免更多误解。我在对应数据后新增了【超过联盟%多少球员】的数据,方便大家查阅。
wubian127
其实就你这个图真的问题不在于模型,而在于编排。就是一般人看这个图会产生什么结论呢?那就是kd和库里效率五五开,但两个人其实并不是五五开,ts库里目前是历史第一,kd也是顶级但和库里差距不小。原因就是你的图片编排。因为比较项目太多,却不对项目的级别和重要性有表示,就是误解产生的关键。比如高考两个考生,一个总分700,一个650,应该有档次差距的,但你列一个表格,有总分,有英语数学地理分科得分,还有英语听力,阅读理解,语文作文等小项得分,统统并列,一列几十项次,双方各有一半占优,最后给人结论是五五开
虎扑JR1746186584
· 广西