乔丹 科比 詹姆斯 ! 高阶数据是否含有巨大的虚假性?下面通过图文进行具体分析
转自知乎 @和谐OS的回答
高阶数据这东西是新世纪Excel普及后创造的,比如著名的PER诞生于2006年。
老一辈球员大多只知道带队赢球,并不太考虑高阶数据,而从客观性以及合理性上,确实高阶数据也存在极大的问题,我先来说一些高阶数据的问题。
科比与高阶数据并不适配的原因,在高阶数据分析完以后估计所有人也能知道个七七八八,我再说一下其他因素。
高阶数据的问题
高阶数据并非客观分析球员的合理依据,常用的高阶数据有PER,WS,BPM,RPM这些,上述的数据都存在着比较致命的缺陷,这里仅以BPM举例(BPM不仅数据烂,而且屁股歪),其余的分析我之前都做过,有兴趣的看链接。
打爆BPM的威斯布鲁克
有一个Excel球迷不太清楚的事情,那就是2016-17赛季,威斯布鲁克打爆了BPM,之所以称为打爆,主要是因为威少的BPM数据超越了之前所有的巨星。
可以看看之前BPM是怎么来计算的。
Raw BPM = a*ReMPG + b*ORB% + c*DRB% + d*STL% + e*BLK%+ f*AST% - g*USG%*TO% + h*USG%*(1-TO%)*[2*(TS% - TmTS%) + i*AST% + j*(3PAr -Lg3PAr) - k] + l*sqrt(AST%*TRB%)
原始的BPM公式是这样的,总之就是一堆面板数据加上一个系数,最后算了个结果。但是你要知道16-17赛季的威少是30+以及场均三双的得分王!所以他各种面板数据都拉满了。
然而这里出现一个问题,大家能发现的就是所谓的高阶数据,更适合把面板数据都拉满的球员。
然后如果你仔细看这个BPM公式,就会发现另一个问题,就在这段公式。
h*USG%*(1-TO%)*[2*(TS% - TmTS%) + i*AST% + j*(3PAr -Lg3PAr) - k]
秘密在于(TS% - TmTS%) 的部分,前面的TS是真实命中率,而后面的TmTS则是球队真实命中率,这个数据如果球员本身的真实命中率高于球队则是正的,如果球员低于球队则是负的。
到这里看还是个中性的数据,但实际上隐含着另一层,就是如果某个核心球员打球的时候身边各个球员都CBA,那么TmTS就会很差,这个球员的高阶数据就会变好。
你可以想象一下,其实球员有两类:
一类是持球大核心,所有球都由他来支配,好的机会就自己得分,不好的机会就分给队友出手。这样就会让自己的高阶数据更好看。
另一类则是球权全队尽量均衡的分配,艰难的球自己来投,空位的好机会交给队友,这样他自己的高阶数据就会变得难看。
这两类球员如果你仔细看球,在联盟里都不在少数,威斯布鲁克更是第一类持球大核心中的佼佼者。所以他打爆BPM数据也就是理所应当了。
按道理说,你BPM设定了规矩,就相当于做了个题目,威少答题满分,你把他列在历史成绩榜第一就可以了,但BPM说不,威少不能第一,就因此把题目改了!这简直就是贻笑大方!
BPM的改进
BPM在威少刷爆之后做了算法的变更,但并没有纠正自己的错误,反而是针对威少以及控卫进行了专项的Debuff,以此来让自己希望排名靠前的球员继续名列前茅。
原本公式里那些系数已经毫无依据,这次的改动更是令人啼笑皆非。
众所周知,在BPM的世界里,DBPM毫无意义,因为DBPM仅仅是BPM与OBPM的差值,由于公式里系数的问题,会造成进攻能力强的球员OBPM溢出,造成DBPM为负数的情况,完全不能体现出球员真正的防守能力,在此不做赘述,就单独说BPM和OBPM。
BPM改进的方式非常粗暴,就是将球员的位置从1到5做了高下之分,比如在篮板这个数据上,1号位(控卫,PG)得到防守篮板的系数最低,而5号位最高。这一条我就看不懂了,凭什么5号位拿个防守篮板系数最高,本来不就是5号位拿篮板最容易嘛?
再来看助攻,也是1号位拿到助攻的系数最低,5号位最高,所以除了威少这种故意持球刷数据的以外,其他控卫全部被误伤?另外就是助攻这个系数高的令人咋舌!差不多和得分一样高,这个其实并不合理,因为助攻并不是一项主动数据,是需要接球后球员投篮才能生成,也就是完全依赖投篮人员是否命中产生,其实助攻就是命中后的衍生数据,只要控球过关,你是持球大核心,想刷的话谁都能刷10个8个的助攻。助攻数量只是持球人员传给最后出手人员数量高就行,与组织能力没有直接关系。
进攻篮板倒是控卫系数最高,可进攻篮板一场比赛才能有几个,控卫又能拿到几个?
反而到了抢断这里控卫的系数最高了,这个不应该是5号位最难拿嘛?你看看抢断王里多少控卫?有几个是中锋?
离谱的是这个什么位置调整常数,更是赤裸裸的直接给1号位上debuff,其余位置都没事儿!
我很能理解BPM数据制造者的智慧,大家也都能清楚这个数据对什么类型球员有利,就是一个球员他是创造者,而且还不能是1号位。
最后的结果就是历史BPM排名里,羞辱榜单权威性的威斯布鲁克不在出现在前十名之内!
由于这个BPM用了2017赛季詹姆斯的数据作为案例,我发现了一个非常可笑的情况,这个数据对1号位增加debuff的时候把詹姆斯放到SF(3号位)的位置,然后按照出手数量扣分的时候就把詹姆斯放到扣分最少的Creator这个扣分少的位置上,完全符合创造这个数据的初衷。
2017赛季通过詹姆斯计算的计算公式,可以看到FGA之类按照了creator,而助攻篮板按照小前锋位置。
说真的,我一点不认为Creator位置出手的FGA扣分应该比Receiver少,现在很多球队都是持球大核心,Receiver很多都是接锅球,你不给Receiver上加成,至少和Creator一样吧?
所以到这里就能看出来BPM这个数据制造者为了将威斯布鲁克从历史榜单第一拿掉,把詹姆斯放上去多么用心良苦,绞尽脑汁(毕竟但凡这些系数出一点偏差,乔丹可就又排在詹姆斯前面了,那不还得重排)!
就从Creator和Receiver这种发明,诺贝尔下次颁奖没有你们我都不看!
回过头再看OBPM的公式,看过刚才的分析大家都应该明白里面的套路了。
在OBPM的公式里,1号位拿篮板居然是扣分的!扣分!这不是扯吗?要么你觉得防守篮板对进攻不重要那就不要放进来,你放进来就为了给1号位扣分是什么居心?!
然后就又回到了Creator的环节了,前面套路已经说完了,不再赘述。上结果吧,库里顶着1号位的巨大DEBUFF拿到了历史OBPM第一名,这与他不抢队友数据有关,也与他逆天的进攻端统治力有关。然后就是NBA历史十届得分王获得者乔丹居然前五名里都没有他!
我差点懵了!你要说别的我还能理解,迈克尔乔丹,十届得分王,几乎只要他打球就是得分王,甚至不会让这个荣誉旁落的人,历史OBPM前五居然没有他!我估计就是后面计算出手那里没把乔丹放在Creator的位置吧!具体怎么算,大家可以自己去看。
DBPM就不说了,丹尼斯罗德曼,2届DPOY,7届篮板王,多年防守一阵,常年DBPM接近于0,甚至是负数。这数据就不说啥了,自己品吧。
给BPM下个结论——修改以前就是个笑话,修改以后只是让这个笑话升级了!
小镇做题家威少凭本事拿到第一,居然楞给改了题目!哈哈!其他高阶数据的问题也都或多或少存在这些问题。
高阶数据对科比类型球员不友好
通过前面的分析,应该已经知道了所谓的高阶数据存在的一些问题。
第一是倾向于持球大核心,这类球员自身的数据面板会比球队里其他球员数据更好,而且存在队友越烂,他的高阶数据越好的情况。
第二是倾向于慢节奏的球队(比如PER和WS都有这个问题),非要拿球队节奏和联盟节奏比,主观认为球员的数据低可能是因为球队节奏比其他球队慢,其实人家凭本事把球队节奏打快了,凭什么要给人家加个debuff呢?
上述两个问题,都是科比的死结。
先说节奏的问题,湖人队历来是快节奏,80年代更是以showtime闻名,后面的时间即便在世纪之交节奏最慢的时候,湖人节奏也不算慢。所以科比在这方面吃了亏。
举个例子,2006年的PER排名前三的是这三位,
球队的节奏是这样的,
而PER的公式里,aPER= (pace adjustment)*uPER
pace adjustment = lgPace / tmPace
所以如果去掉这个节奏的计算,2006年的uPER这个数值应该是科比>詹姆斯>诺维茨基的。
但最终究因为这个节奏导致人们看到了科比不是PER第一,也可以理解,数据创造的第一年就搞错了第一名应该是谁得多麻烦?其实是不是第一不算很重要,只要这个数据排名靠前,已经证明球员很优秀,这样就可以了。
科比的作用被严重低估
再来说一下,数据面板的问题。还是拿05-06赛季的科比举例,当年他的队友是这些人。
我们看一下得分排名第三的死神帕克。在他的NBA生涯里,除了在湖人的岁月,基本上都没怎么打球,而就是在湖人,他居然拿到了首发的位置,甚至还能场均超过10分!在科比身边能达到44%命中率,而离开科比后他的命中率最高只有36.2%!此外他可真是在CBA打过的,真正的CBA队友!
再来看得分排名第四的米姆,他在06-07赛季严重伤病后不行了,但他到了湖人一开始那还是可以的,不论得分还是命中率都显著提升,达到了职业生涯的巅峰!
再来看状元郎布朗,在湖人期间明显是职业巅峰,投篮命中率达到了59.1%!
再来个库克,这位离开湖人以后是没什么球队拿他当首发的,所以他的巅峰期也就在湖人了,看看与他在其他球队的差距,别的不说,命中率能看呆了吧?
看看奥多姆的,不要说科比废队友,但他在科比身边时职业生涯最高命中率啊,还拿到了最佳第六人,离开后什么样子我不多说了,令人唏嘘。
科比就带着这群不太合格的NBA球员打了那么多年,几乎所有球员在科比身边效率都会提高,命中率都会上升,有人思考过这个问题吗?高阶数据没法体现这个,只能去看比赛,只有到了比赛中你才能看到科比确实低效,确实不合理,但如果你把目光聚焦到全队就不一样了,科比用自己的能力吸引防守给队友创造机会,这才是巨星应该做的事情。然而你看了之前bpm那部分原始公式就知道,队友的命中率提升是会降低核心球员bpm的!科比这类球员在高阶数据上自然就吃亏了。
科比这种球员并不少,众所周知的就是勇士球员不带说明书,离开勇士队后就完蛋了。就拿贝兹摩尔举例,他上赛季在勇士算是为数不多的靠谱球员,而这赛季到了湖人什么表现都知道了。
很简单,他在勇士队靠着库里的影响力打球,投篮一堆空位。到了湖人好机会要留给大佬们,自己要投接锅球,就这点差距。但库里的高阶数据上可不会体现这一点,反而会因为球队节奏快而吃大亏呢。
所以你如果仔细点就会发现那些高阶数据霸榜的经常出现他们队友在此前数据很好,到了一队数据就下滑,而离队后数据又会提升的情况,没什么,只是持球大核心更容易将队友的数据转化成自己的。但是球队战绩肯定会因此受到影响,解决的方案就是找一堆强力的队友就行了。
时代与分区问题
科比所处的时代和分区对他的数据不太有利。
由于历史原因,科比进入联盟的时期整体节奏非常慢,内线很拥挤,这时候中锋除了具有绝对破坏力的奥尼尔以外,基本都不再有此前的统治力,反而是可以在外面打的大前锋们迎来了自己的时代。
非常不巧的是从科比进入联盟起,到他职业生涯终结为止,历年最佳大前锋全部都跟科比在一个分区,而他职业生涯巅峰期,要面临邓肯,加内特,诺维茨基,韦伯,小斯塔德迈尔这些优秀大前锋的围剿。这让他不仅从数据上还是战绩上都受到了严重影响。
而与此对比,东部如果不把大本放到大前锋,其实在很长时间里东部处于巅峰期的大前锋只有波什!这自然没什么影响,而当已经上了岁数的加内特到了东部,形势立刻出现变化,这也是促成热火三巨头的重要原因!
从球队上看,比如07-08赛季,除了东部前三以外,其余球队到了西部根本进不去季后赛,西部第九都能排东部第四。
长期面对强敌时获得数据的难度增加,这个不用我多说了吧?甚至我还发现有一些人蜜球迷不知道同分区之间球队交手更多,简直无语。
所以科比的数据,尤其高阶数据不好看,就这些因素。
高阶数据本身对科比这种球员不太适用,完全不能体现他的实力。西强东弱过于明显,让科比获得基础数据非常难。
看到这个知乎答友想总结一下:
每个数据模型,都自有其缺陷。至少当下,没有完美的高阶数据。至少在篮球这项运动中,难道看球不比看数据真实?
在不同的时代背景下,不同的对手,不同的战术体系,不同的位置,不同的吹罚规则,用这种所谓的高阶数据来比较球员,显然是有失公允的!
竞技体育,最需要讲究的是胜负,最需要的品质是不服输的竞技精神,最吸引人的是不同竞技运动带给观众的不同感官感受!
而这些所谓的高阶数据,可能也能给某些球迷带来快乐吧