我带大家来了解各类高阶数据
高阶数据有很多种,让人眼花缭乱。想用又不知如何用。
我这里做以简单的说明,如有不准确的地方,还请指正。
十几年前,虎扑最常讨论的高阶数据是PER。它是基础数据比如得分,篮板经过一系列简单的数学公式,计算出来的一种综合数据。比如知道一名球员拿了30分10篮板5助攻2抢断1盖帽3失误,10篮板乘一个系数,5助攻乘一个系数,把所有这些数据都简单处理后,累加在一起,就可以大体得出一名球员的PER。它表达的是一名球员在场的综合贡献。
PER有它的时代进步性,但是现在看来,它并不合理。因为公式中的各项系数来自于公式创造者的个人经验,并不精确。绝大多数的面板型数据,比如winshare(WS)都和PER有着类似的问题。
它造成的结果是,就是那些所谓的数据刷子型球员,会得到比实际场上产出更高的评价。
于是乎,新一代的高阶数据诞生了。比如RPM、raptor、lebron、BPM等。在最近的mvp评选中,这一类数据被反复的提到。
很多人不相信这一类高阶数据,因为这些高阶数据很多是不提供计算公式的。
其实并不是不肯提供,有些高阶数据的计算很复杂。以及,这些数据都需要用到一项名为RAPM的数据,而这个数据需要运用到几十万行矩阵的公式。提供了非专业人士也看不懂。
RAPM是一项不依赖基础数据,就能衡量球员场上价值的超级数据。但是它有一个严重的问题。就是它依赖于大量的数据样本,一个赛季的样本根本不够,会有很大的误差。而上述所有的高阶数据,就是在其基础上,设计的误差更小的数据。
RPM、raptor、lebron、BPM的设计思路各不相同。
BPM可以理解为,系数更准确的升级版PER。它的公式很简单,很容易看懂。就是加减乘除。但是公式里用来衡量各项基础数据比如助攻的价值的系数,是通过RAPM分析过去数十年的比赛数据求得的。
RPM更高级更复杂一些。它融入了这些年的play by play数据,也就是球员在场每一回合,球队的得失分情况。
lebron是原PIPM团队的部分人员做的,它和RPM类似,但是考虑了胜场数。球队胜场数高的球员,评价容易更高一些。另外,它会根据不同的球员类型做区分计算。
raptor分为两部分,第一部分类似于BPM,但是除了基础数据,还加入了这些年流行的球场跟踪数据等等,所以准确性更高一些。第二部分没有像RPM一样对play by play数据进行分析计算,因为这样也容易有误差。所以它采用了更简单的on/off数据,虽然准确性有限,但是误差也更小。
总的来说,四项数据各有倾重。BPM对善于填满面板的数据型球员更友好,对库里这一类球员其实就没那么友好。约基奇排在第一。库里以历史级的真实命中率,排在第三。Lebron,库里的胜场不高,所以是四项高阶数据中排名最低,排在第七位,低于字母哥等强队超巨。RPM更看重球员的场上影响力,库里排在第一位,詹姆斯第二位。raptor会反应球员基础数据之外的场上表现,库里排在第五位,但是进攻端排在第一位。
综合而言,我认为高阶数据来看,库里是本赛季最好的球员。
黄L志唯一男友
· 甘肃bpm是约老师第一啊