看球很难吗,为什么越来越多的人看高阶数据?

avatar
关注

近年来,MVP奖项归属似乎越来越参考高阶数据。下表是2015-2022年8次常规赛MVP得主的高阶数据排名情况。

写在前面:在国内论坛一提高阶数据,必然引出许多荒谬回复。为确保本帖不遭污染,笔者先总结10种荒谬言论进行批驳。如果对高阶数据不甚了解,烦请看完,以后遇到类似言论注意分辨。

言论一:(发一张)历年各高阶数据领跑者.JPG。怎么找了半天都看不见XXX啊?菜!

驳:典型的不懂高阶数据。论坛里流传着很多版本的高阶数据图。遗憾的是,其中所列的大部分都不是今天真正受认可的高阶数据。

言论二:高阶数据不是被威少打爆了?被打爆就修改的玩意,也好意思拿出来说?

驳:典型的不懂前因后果。首先,威少仅仅打爆了BPM这一种高阶数据而已。其次,很多其他高阶数据比BPM靠谱,更没有被打爆过。用BPM来否定所有高阶数据,可笑。最后,BPM修改后可靠性增加,之所以被打爆,数学上也易于理解。

言论三:想刷高阶数据还不容易?大量持球、简单球自己打、困难球甩锅、队友卡位自己捡篮板,不就OK了?

驳:典型的想当然。数据专家比你聪明得多。目前主流高阶数据均试图反映真实的“正负值”,不看过程只看结果,即球员在场的时候球队能赢多少分。甩锅、刷分、刷篮板,如果伤害球队,将会被惩罚。攻坚、打无球,如果帮球队赢分,则会被奖励。

言论四:有一年XXX表现多好,为什么那年他高阶数据一塌糊涂?高阶数据就是没用!

驳:典型的以偏概全。首先,完全有可能是你错了,不是吗?其次,一年对于高阶数据而言样本较小,小样本偶然性大。最后,高阶数据当然不完美,但不能因为个例对其全盘否定。

言论五:XXX生涯高阶数据几乎从来没进过前三,你意思他从来不是联盟前三的球员?高阶数据就是个笑话!

驳:典型的主观言论。不能只看单一高阶数据,要综合看。而且如果差距很小,不能直接分高下。即使差距不算很小,也要考虑高阶数据有局限性。但如果差距过大,应该认真考虑是不是你错了。

言论六:哦哟,高阶数据这么牛,冠军一定没少拿吧?别扯这些有的没的!

驳:典型的转移话题。首先,篮球是团队运动,夺冠靠团队,高阶数据主要体现个人能力。其次,团队强正负值好,因此冠军多反而可能在高阶数据上占一定优势,如果高阶数据还不行,可能说明沾了队友的光。

言论七:高阶数据具体怎么算的给我讲讲?都不知道怎么算的,咋好意思提的?

驳:典型的伪逻辑。不懂半导体原理,怎么好意思玩手机的?不懂汽车原理,怎么好意思开车的?不懂药理,怎么好意思吃药的?有太多东西,不完全懂也可以用。

言论八:高阶数据就是媒体用来捧XXX的工具罢了,也有人信?全联盟都被XXX操纵了!

驳:典型的阴谋论。给几句忠告:第一,不要把所有人都想象成跟你一样的饭圈;第二,只有个别高阶数据是黑箱,大多数可供检验,你也可以;第三,先查查你喜欢的球星高阶数据到底高不高,再说这话也不迟,你说是不?

言论九:看球很难吗?一堆云球迷天天不看球净扯高阶数据,EXCEL球迷!

驳:典型的扣帽子。看懂球真的很难。中国的网络上,大部分人没资格用看球经历否定高阶数据的可靠性。很多拿比赛录像出来指点江山的人,很丢人,还不如不看球只看高阶数据。为什么?因为录像分析的门槛很高,没接受过高水平战术训练的人分析录像,完全是胡说八道、贻笑大方。

言论十:行行行,你说的对。那大家也别看球了,都去看数据吧!

驳:典型的破防、耍赖。看球是为了欣赏。真的要判断球员水平,当然要结合数据。丝毫不冲突。


下面简单介绍主流的高阶数据。力求通俗,不求甚解。一是笔者也没完全吃透,二是大部分读者也没耐心看完。

本文所称高阶数据(advanced stats),特指一体化评价标准(catch-all / all-in-one metric),即用单一值衡量球员表现。为得到高阶数据,需要收集海量数据、进行复杂计算。

传统高阶数据:PER、WS/48等。原理是给基础数据赋权打分。可靠性低。

高阶数据之源:RAPM。目标是计算一个球员在场时的真实正负值(帮球队赢几分)。考虑每次得分时的敌我阵容,能列出大量形如a1+a2+a3+a4+a5-b1-b2-b3-b4-b5=x(分差)的方程。统计学里有很多工具可以求出近似解。RAPM的好处是客观,只看结果,再怎么刷也不管用。缺点是:第一,97年之前没有Game Log,无法计算;第二,需要样本量巨大,3年、5年才算合适;第三,有球员同上同下的话难以区分。

现代高阶数据:为解决RAPM的问题,数据专家结合RAPM和基础数据,加入少量先验知识,发明了很多新高阶数据,可用于评估单赛季的表现。主要思路是使用基础数据去拟合RAPM。如BPM、RPM、LEBRON、RAPTOR、EPM、DPM等。

大部分高阶数据所用的基础数据并不“基础”。近年来,NBA官方开始大量采集微观的基础数据。官网上可查,现简单举例:Clutch(统计关键时刻的攻防表现);Playtype(把进攻方式拆成ISO、转换、挡拆、背身、手递手、补篮等等,统计进攻表现);Tracking(统计球员的各类行为及相关表现,运球突破、干拔、接球投、传球、触球、肘区触球、油漆区触球等等);Hustle(掩护、截断、拼抢、制造带球撞人等)……这些基础数据较为全面的刻画了球员攻防两端的表现。缺点是只统计了小十年,无法跨时代比较。

BPM用的基础数据则很基础,即传统的得分篮板助攻抢断盖帽等。优点是可以跨时代比较。缺点是防守数据太少,导致汤普森、科比等球员被BPM认为不懂防守,而威少篮板多所以占优。第一代BPM中有一个非线性项:使用率*助攻率,是导致被威少打爆的主因,修正该问题后,第二代BPM的可靠性提升。

目前被认为最可靠的高阶数据依次是DPM、EPM、LEBRON。其他高阶数据也有一定参考价值。DPM是唯一使用了机器学习方法的高阶数据,最受好评。

高阶数据应结合起来看。如果所有高阶数据都高,球员大概率不错。如果所有高阶数据都差,球员大概率有问题。


本文开始即提到,常规赛MVP归属似乎越来越参考高阶数据。下表是2015-2022年MVP前三和各高阶数据前三的情况。

高阶数据视角下,库里、哈登、字母哥、约基奇得到8年里的7座MVP,整体来看实至名归。威少获得MVP,主要是场均三双太过惊人。库里是这8年里高阶数据最亮眼的球员,而约基奇已经开始他的屠榜之路。

关于其他球员:保罗伦纳德的高阶数据表现亮眼,高阶数据喜欢保罗是公开的秘密。高阶数据对詹姆斯杜兰特这8年的常规赛表现并不十分满意,特别是杜兰特


笔者未能找到确切的DPM数字。由于DPM是目前最受认可的高阶数据,放几张图,描绘球员生涯的DPM轨迹(纵轴为DPM,横轴为参赛场次)。詹姆斯作为参照。

图1:詹姆斯(蓝)与4位已退役MVP的对比。邓肯(绿)DPM比詹姆斯强,加内特(橙)和司机(黄)都不错,科比(红)最晚开始下滑。

图2:詹姆斯(蓝)与4位中生代MVP的对比。库里(绿)DPM优秀但已经下滑,杜兰特(红)和哈登(橙)表现不错,威少(黄)过山车。

图3:詹姆斯与4位新生代MVP/MVP竞逐者的对比。字母哥约基奇恩比德塔图姆DPM轨迹大不相同,但目前水平接近,分别为5.6,6.0,5.5,5.0。

图4:詹姆斯与其他顶尖球员的对比。保罗(橙)DPM表现优秀,伦纳德(绿)不错,韦德(红)过山车,浓眉哥(黄)一般。


本赛季截至目前,约基奇领跑DPM和EPM。MVP另一热门东契奇EPM第2,但DPM只有可怜的3.5,排名第17。约基奇能完成3连MVP的壮举吗?

2014年到2022年的8次MVP,你曾经觉得哪一个的争议是最大的?高阶数据支持你的看法吗?

上面4张DPM轨迹图,谁的DPM最出乎你的意料?高了低了?

如果MVP归属与高阶数据继续这么绑定下去,你觉得是好事还是坏事?


欢迎大家各抒己见,交流探讨,提供补充。谢绝饭圈行为,请不要发本文开头列出的10种言论。

如有数据大神路过,发现帖子中的谬误,烦请指出、提前谢谢。


发布于北京阅读 58744

这些回复亮了

discusser-avatar

浮云定义洁白

· 广西
onlybopo比如今天这场东契奇两个绝平三分加时赢的湖人约老师助攻,得分,篮板这些数据虽不炸裂但公式算完数值逆天,吊打东契奇请问楼主高阶数据能真实反映场上的局势和球员对比赛的影响力吗?收起

这赛季东契奇高阶一直跟约老师都是伯仲间,无非是打一场好球换一个位置。单12月的高阶、截止1月1日的高阶、截止今天的高阶都是东子略高,模拟mvp投票随队媒体给的票数也是东子43%略高约老师40%,你基础数据爆炸且赢球多,高阶是一定爆炸的。

亮了(102)
查看回复(2)
回复
discusser-avatar

铁铸罗汉楼主

· 北京
onlybopo比如今天这场东契奇两个绝平三分加时赢的湖人约老师助攻,得分,篮板这些数据虽不炸裂但公式算完数值逆天,吊打东契奇请问楼主高阶数据能真实反映场上的局势和球员对比赛的影响力吗?收起

高阶数据无法应用在某一场比赛里。

亮了(66)
查看回复(4)
回复