看球很难吗,为什么越来越多的人看高阶数据?
近年来,MVP奖项归属似乎越来越参考高阶数据。下表是2015-2022年8次常规赛MVP得主的高阶数据排名情况。
写在前面:在国内论坛一提高阶数据,必然引出许多荒谬回复。为确保本帖不遭污染,笔者先总结10种荒谬言论进行批驳。如果对高阶数据不甚了解,烦请看完,以后遇到类似言论注意分辨。
言论一:(发一张)历年各高阶数据领跑者.JPG。怎么找了半天都看不见XXX啊?菜!
驳:典型的不懂高阶数据。论坛里流传着很多版本的高阶数据图。遗憾的是,其中所列的大部分都不是今天真正受认可的高阶数据。
言论二:高阶数据不是被威少打爆了?被打爆就修改的玩意,也好意思拿出来说?
驳:典型的不懂前因后果。首先,威少仅仅打爆了BPM这一种高阶数据而已。其次,很多其他高阶数据比BPM靠谱,更没有被打爆过。用BPM来否定所有高阶数据,可笑。最后,BPM修改后可靠性增加,之所以被打爆,数学上也易于理解。
言论三:想刷高阶数据还不容易?大量持球、简单球自己打、困难球甩锅、队友卡位自己捡篮板,不就OK了?
驳:典型的想当然。数据专家比你聪明得多。目前主流高阶数据均试图反映真实的“正负值”,不看过程只看结果,即球员在场的时候球队能赢多少分。甩锅、刷分、刷篮板,如果伤害球队,将会被惩罚。攻坚、打无球,如果帮球队赢分,则会被奖励。
言论四:有一年XXX表现多好,为什么那年他高阶数据一塌糊涂?高阶数据就是没用!
驳:典型的以偏概全。首先,完全有可能是你错了,不是吗?其次,一年对于高阶数据而言样本较小,小样本偶然性大。最后,高阶数据当然不完美,但不能因为个例对其全盘否定。
言论五:XXX生涯高阶数据几乎从来没进过前三,你意思他从来不是联盟前三的球员?高阶数据就是个笑话!
驳:典型的主观言论。不能只看单一高阶数据,要综合看。而且如果差距很小,不能直接分高下。即使差距不算很小,也要考虑高阶数据有局限性。但如果差距过大,应该认真考虑是不是你错了。
言论六:哦哟,高阶数据这么牛,冠军一定没少拿吧?别扯这些有的没的!
驳:典型的转移话题。首先,篮球是团队运动,夺冠靠团队,高阶数据主要体现个人能力。其次,团队强正负值好,因此冠军多反而可能在高阶数据上占一定优势,如果高阶数据还不行,可能说明沾了队友的光。
言论七:高阶数据具体怎么算的给我讲讲?都不知道怎么算的,咋好意思提的?
驳:典型的伪逻辑。不懂半导体原理,怎么好意思玩手机的?不懂汽车原理,怎么好意思开车的?不懂药理,怎么好意思吃药的?有太多东西,不完全懂也可以用。
言论八:高阶数据就是媒体用来捧XXX的工具罢了,也有人信?全联盟都被XXX操纵了!
驳:典型的阴谋论。给几句忠告:第一,不要把所有人都想象成跟你一样的饭圈;第二,只有个别高阶数据是黑箱,大多数可供检验,你也可以;第三,先查查你喜欢的球星高阶数据到底高不高,再说这话也不迟,你说是不?
言论九:看球很难吗?一堆云球迷天天不看球净扯高阶数据,EXCEL球迷!
驳:典型的扣帽子。看懂球真的很难。中国的网络上,大部分人没资格用看球经历否定高阶数据的可靠性。很多拿比赛录像出来指点江山的人,很丢人,还不如不看球只看高阶数据。为什么?因为录像分析的门槛很高,没接受过高水平战术训练的人分析录像,完全是胡说八道、贻笑大方。
言论十:行行行,你说的对。那大家也别看球了,都去看数据吧!
驳:典型的破防、耍赖。看球是为了欣赏。真的要判断球员水平,当然要结合数据。丝毫不冲突。
下面简单介绍主流的高阶数据。力求通俗,不求甚解。一是笔者也没完全吃透,二是大部分读者也没耐心看完。
本文所称高阶数据(advanced stats),特指一体化评价标准(catch-all / all-in-one metric),即用单一值衡量球员表现。为得到高阶数据,需要收集海量数据、进行复杂计算。
传统高阶数据:PER、WS/48等。原理是给基础数据赋权打分。可靠性低。
高阶数据之源:RAPM。目标是计算一个球员在场时的真实正负值(帮球队赢几分)。考虑每次得分时的敌我阵容,能列出大量形如a1+a2+a3+a4+a5-b1-b2-b3-b4-b5=x(分差)的方程。统计学里有很多工具可以求出近似解。RAPM的好处是客观,只看结果,再怎么刷也不管用。缺点是:第一,97年之前没有Game Log,无法计算;第二,需要样本量巨大,3年、5年才算合适;第三,有球员同上同下的话难以区分。
现代高阶数据:为解决RAPM的问题,数据专家结合RAPM和基础数据,加入少量先验知识,发明了很多新高阶数据,可用于评估单赛季的表现。主要思路是使用基础数据去拟合RAPM。如BPM、RPM、LEBRON、RAPTOR、EPM、DPM等。
大部分高阶数据所用的基础数据并不“基础”。近年来,NBA官方开始大量采集微观的基础数据。官网上可查,现简单举例:Clutch(统计关键时刻的攻防表现);Playtype(把进攻方式拆成ISO、转换、挡拆、背身、手递手、补篮等等,统计进攻表现);Tracking(统计球员的各类行为及相关表现,运球突破、干拔、接球投、传球、触球、肘区触球、油漆区触球等等);Hustle(掩护、截断、拼抢、制造带球撞人等)……这些基础数据较为全面的刻画了球员攻防两端的表现。缺点是只统计了小十年,无法跨时代比较。
BPM用的基础数据则很基础,即传统的得分篮板助攻抢断盖帽等。优点是可以跨时代比较。缺点是防守数据太少,导致汤普森、科比等球员被BPM认为不懂防守,而威少篮板多所以占优。第一代BPM中有一个非线性项:使用率*助攻率,是导致被威少打爆的主因,修正该问题后,第二代BPM的可靠性提升。
目前被认为最可靠的高阶数据依次是DPM、EPM、LEBRON。其他高阶数据也有一定参考价值。DPM是唯一使用了机器学习方法的高阶数据,最受好评。
高阶数据应结合起来看。如果所有高阶数据都高,球员大概率不错。如果所有高阶数据都差,球员大概率有问题。
本文开始即提到,常规赛MVP归属似乎越来越参考高阶数据。下表是2015-2022年MVP前三和各高阶数据前三的情况。
高阶数据视角下,库里、哈登、字母哥、约基奇得到8年里的7座MVP,整体来看实至名归。威少获得MVP,主要是场均三双太过惊人。库里是这8年里高阶数据最亮眼的球员,而约基奇已经开始他的屠榜之路。
关于其他球员:保罗和伦纳德的高阶数据表现亮眼,高阶数据喜欢保罗是公开的秘密。高阶数据对詹姆斯和杜兰特这8年的常规赛表现并不十分满意,特别是杜兰特。
笔者未能找到确切的DPM数字。由于DPM是目前最受认可的高阶数据,放几张图,描绘球员生涯的DPM轨迹(纵轴为DPM,横轴为参赛场次)。詹姆斯作为参照。
图1:詹姆斯(蓝)与4位已退役MVP的对比。邓肯(绿)DPM比詹姆斯强,加内特(橙)和司机(黄)都不错,科比(红)最晚开始下滑。
图2:詹姆斯(蓝)与4位中生代MVP的对比。库里(绿)DPM优秀但已经下滑,杜兰特(红)和哈登(橙)表现不错,威少(黄)过山车。
图3:詹姆斯与4位新生代MVP/MVP竞逐者的对比。字母哥、约基奇、恩比德、塔图姆DPM轨迹大不相同,但目前水平接近,分别为5.6,6.0,5.5,5.0。
图4:詹姆斯与其他顶尖球员的对比。保罗(橙)DPM表现优秀,伦纳德(绿)不错,韦德(红)过山车,浓眉哥(黄)一般。
本赛季截至目前,约基奇领跑DPM和EPM。MVP另一热门东契奇EPM第2,但DPM只有可怜的3.5,排名第17。约基奇能完成3连MVP的壮举吗?
2014年到2022年的8次MVP,你曾经觉得哪一个的争议是最大的?高阶数据支持你的看法吗?
上面4张DPM轨迹图,谁的DPM最出乎你的意料?高了低了?
如果MVP归属与高阶数据继续这么绑定下去,你觉得是好事还是坏事?
欢迎大家各抒己见,交流探讨,提供补充。谢绝饭圈行为,请不要发本文开头列出的10种言论。
如有数据大神路过,发现帖子中的谬误,烦请指出、提前谢谢。
浮云定义洁白
· 广西这赛季东契奇高阶一直跟约老师都是伯仲间,无非是打一场好球换一个位置。单12月的高阶、截止1月1日的高阶、截止今天的高阶都是东子略高,模拟mvp投票随队媒体给的票数也是东子43%略高约老师40%,你基础数据爆炸且赢球多,高阶是一定爆炸的。
铁铸罗汉楼主
· 北京高阶数据无法应用在某一场比赛里。