深度解析帕特诺的排名错在哪里,更好的模型证明库里独一档(长文慎入)

avatar
关注

帕特诺是一位向来以数据分析著称的NBA专家,他习惯用数据统计的方式的来颠覆人们长久以来的想法,客观,严谨是他的代名词。

他最近花了大量时间试图给NBA一百多位球员进行分档。他的球员评级在业内的受重视程度比一般美媒的排名受重视程度要高得多。但当他的最新的评级逐渐列出的时候,却引来一片哗然。

很多人眼里的帕特诺好像变了一个人,不再是逻辑严密,客观公正的帕特诺,反而像多年来漂浮在NBA篮球界里的众多偏见的化身了,那么在这两个形象截然相反的帕特诺之间,到底发生了什么呢?

1,无处不在的偏见

丹尼尔·卡尼曼是美国的著名的心理学家,他以心理学家的身份获得2002的诺贝尔经济学奖。他于2011年出版的《思考,快与慢》获得了美国国家科学院图书奖,在全球引发讨论狂潮。《思考快与慢》讨论人类到底会有多理性,这本书堪称思维谬误以及偏见的集大成者,而在篮球领域你可以欣赏到各种各样的偏见。

列一下篮球领域常见的偏见

过程忽视和峰终定律:体验效用和决策效用存在差异,人们倾向于忽略过程,却对靠近最后的记忆过高的评价占比。

本赛季休赛期在讨论最佳球员的时候,不会出现约基奇的名字,帕特诺也不例外。一个当赛季的MVP,所有高阶数据全方面领先,但如今人们的记忆里更多是季后赛的众多场景,至于约基奇常规赛的精彩表现已经没有多少人记得了。16赛季的库里,就像一场恢弘壮阔持续了一整场的交响乐只因为结尾少部分的不和谐,而被极大的低估了,73胜的成就像露水一样,除了让被称颂多年的乔丹的72胜不再被称颂,除了在质疑杜兰特的时候你不会在其他地方看到。哈登也许是这个定律之下最大受害者,他每年似乎都重复着相同的命运,在整个赛季的疯狂表演之后,用少数几场投篮失准后失败离场来代表自己。

沉没成本

当选到一个高顺位新秀但表现不好的时候,管理层往往不是给更少的时间,而是更多的上场时间甚至大合同。典型的是,维金斯和怀斯曼。

锚定效应

拿了底薪之后往往只能继续拿底薪,帕特诺排的同档次球员之间薪水千差万别,很多时候重要原因只是因为他前一份合同比较大或者小而已。而高薪的得分手除非在证明已经是完全的副作用之前依然更容易拿到高薪。典型的是本赛季的德罗赞。

投篮顺手——随机事件中创造模式

卡尼曼还举了一个篮球方面的例子:运动员有时投篮顺手的“事实”普遍被运动员、教练和球迷们所接受。这样的推断是顺理成章的:如果一个运动员连续进了三四个球,你就会不由自主作出判断:这个运动员正处于“投篮顺手”的状态,得分率暂时增加。两队队员都持这种判断,队员也更爱将球传给打得顺手的人,对方球队则会用两位防守球员防卫这位进攻球员。

然而,对上千个投篮动作的分析结果却十分令人失望:在职业篮球比赛中,无论球是从球场上投出还是从罚球线投出的,根本没有“投篮顺手”这回事。当然,一些球员会比其他球员投篮更准,但进球与投篮未中都只是随机的。“投篮顺手”完全只是旁人所见,而且他们太快作出评判了,以至于感知不到随机事件中的顺序和因果关系。

叙事谬误:能够吸引人们眼球的那些说法往往很通俗易懂,那些说法具体而不抽象,它们认为天赋、愚蠢和意图的作用都要超过运气的作用,它们关注的是少数几件已经发生的事件,而不是无数件并没有发生的事。任何新近发生的有影响的事都可能成为一个存在因果关系的故事的核心情节。

评价一个球员的成败的时候,也会被最近他做到的和没有做到的事情叙述为成败的关键,比如一个败者将会把他没有做到的事情列为失败的关键,经典的就是克里斯保罗之所以是失败者的原因是“球队需要他砍下40+的时候,他砍下20+10+10”。而一个成功者会讲他做到的事情列为成功的关键。无数更深层次的原因将会被忽略。

在NBA,故事性一直是非常重要的一部分,有没有冠军比冠军有几个更重要的原因,是否有冠军将直接决定是你是故事的主角还是没落的小角色或大反派。

就像卡尔·马龙会在镜头里深沉地抽着雪茄解释不是他输给乔丹,是爵士输给公牛,但有几个人会听到一个反派的辩解。如果他在湖人混到一个冠军,也许他会成为一个老兵不死励志故事的主角。

其实这里面的大多数谬误是人的天然缺陷,很难完全避免,即便是很公正的人也会因为19赛季伦纳德绝杀76人的球在颠颠几下之后有没有进这一高度依赖运气的事情,而对伦纳德的评价有非常大的差别。

本赛季对字母哥的评价也会因为杜兰特的脚有没有差别那一公分而有重大差异,这种无可避免有时候是评价者的问题,又像是对大众认知的一种无可奈何的妥协。我们无法预测世界,但世界呈现的结果就成为唯一的答案。帕特诺说对季后赛荣誉进行加成,就是基于此项原则。

其实整个篮球领域的评价都被“清晰度”挟持。简单地说,肉眼可见比肉眼不可见的东西评价高太多。进攻比防守更肉眼可见,篮板数比抢断失误数更容易看见,得分比所有其他都更容易看见,面板数据比高阶数据更容易见,身高比敏捷更可见,荣誉比表现更可见,成败比运气更可见。

所以历史地位这种糟糕的排名,成了数荣誉的游戏。

如果说以往这样是因为没有合适的评价体系,但如今不再是了。随着NBA规模的日益壮大,资本的驱逐之下,大量数据研究的精进使得更加客观评价球员成为可能。

RAPM的诞生是革命性的。把篮球评价由一种原本理解为于五个人一起挖矿,谁矿石多谁贡献大的简单游戏,变成了另一种复杂的游戏了,它关注的最终评价依据是各种团队在场时候能否赢球,这回归了多人团队运动的本质。使得配合,牺牲再次成为成就的一部分。在RAPM研究的基础上,多种一体化数据继续完善了对这个复杂运动的认知。

但数据永远只是一部分,解读数据的是人,另外一部分是人类的偏见,如果你认为各种偏见无知会因为数据的出现而逐渐消失,那就太天真了。如果你认为一个人比如帕特诺这种,足够客观且非常专业,就能避免偏见,那么卡尼曼会告诉你,帕特诺这种专家,往往是偏见的始作俑者。

2,临床判断和机械预测

保罗·米尔是个多才多艺的心理学家,他曾在明尼苏达大学的心理学系、法学系、精神病学系、神经病学系以及哲学系任教,同时写了宗教、政治科学方面的文章。米尔他的特点就是用统计数字说话,曾对临床心理学的空洞言论大加批评。他写的《临床与统计的预测:理论分析与事实回顾》给了丹尼尔卡尼曼一些启发,卡尼曼在《思考,快与慢》中也阐述了这个道理。

在面对一个复杂问题的时候,可以用两种方式进行判断,临床判断和机械预测。

临床判断的意思是给专家足够多的信息和数据,然后让专家基于个人经验和直觉进行综合判断。就像帕特诺这次做的那样。

与临床判断相对应的是机械预测,就是设定几个指标,然后用简单的机械计算。然后根据计算结果进行判断和预测。

那么这两种方式,哪种的效果会很好呢?

事实上2000年以来,有人统计在此方面有136项研究,包括各种主题多个维度,比如诊断病情,考察候选人,婚姻满意度等等,136项里只有8项是专家的临床判断比机械判断好。

卡尼曼对这种现象进行了阐述和解释:"为什么专家预测不如简单运算准确?米尔猜测其中一个原因是这些专家试图变得聪明,总想跳出思维的框框,在预测时会考虑将不同特征进行复杂的结合。复杂化对稀奇古怪的事情是有影响的,但十有八九会降低其正确性,将这些特征简单地整合在一起反而会更好。有几项研究已经表明,即使人们知道公式给出的建议分数,人类决策制定者在面对预测公式时也会自叹弗如。他们认为自己比公式强大,因为人们拥有关于这一问题的其他信息,但他们往往是错的。

专家判断不可取的另一个原因,是人们对复杂信息的最终判断很难达成一致。如果有人要求这些专家对同一信息进行两次评估,他们通常会给出不同的答案。这些不一致之处往往正是真正令人关切的地方。一个经验丰富的放射科医师在两个不同的场合看到同一张片子,这两次检查结果在“正常”与“异常”之间会有20%的偏差。一项让101名审计员独立评价企业内部审计业务可靠性的实验也反映出类似的不一致程度。此前曾有过对不同专业人士判断可靠性的41项研究,研究要求审计员、病理学家、心理学家、组织管理者等专业人士回顾自己原来的判断。尽管他们对每个案例的再次评估在几分钟内就完成了,但实验结果还是说明了判断的不一致性非常典型。不可靠的判断使人们对任何事物都不可能作出有效预测。"

帕特诺向来是以一个对传统的怀疑论者出现,他同样擅长用数据说话,比如他用数据雄辩证明了所谓关键球强的球队并不存在,一切只是随机的结果。当帕特诺试图把EPM当做一个判断的起点这个态度没有问题,但随后的他的所作所为更像是根据需要随时抛弃了这个数据,凭借这直觉,试图整合"进攻开发能力”,“投射”“速度”等众多因素,猜测这个球员会对球队夺冠带来的帮助,很多时候不仅缺乏数据支持,甚至连基本的依据都顾不上了。

本质上帕特诺在干一件人类做不到的事情,当有多个因素控制的时候,如果不建立模型,设定参数,你是很难综合考虑的。

就像如果要计算SPR,必须要做到3步:

1,第一步获得清晰准确的面板数据。而帕特诺的思想模型里,我敢说他的参数是混乱不堪的。

2,给每个面板数据合理的系数。这是最困难的,通常需要大规模数据进行回归拟合。事实上,哪怕是专业人士也就是不久之前才知道篮板并不那么重要。

3,进行一步步加减乘除的计算。这个需要系统二参与,系统一是做不到,除非经过专门的训练,多次反馈结果,否则你看到面板数据直接估算SPR会误差非常大。

所以如果把帕特诺做的事情比作成计算SPR,那么第一他参数不明确且不完全,想到哪个就用哪个。第二系数不知道,依据不存在的,凭感觉。第三,缺乏一步步计算过程,然后自信地直接得出结论。

大概相当于你看了一场比赛,然后模糊猜测该球员得了多少分,抢了几个篮板,拿了几个助攻,其余数据放弃,然后又不知道SPR公式具体是啥,但你仍然得出了SPR。

就像卡尼曼明确指出这一点“为什么很难具备统计型思维。我们思考时总是会把多种事情联系起来,会将一件事情比喻成另一件,会突然想起一件事来,但统计学要求同一时间把多件事情串联起来,而这一点系统1是做不到的。”

卡尼曼的话说就是——“你几乎不可能制造出一个比专家表现更差的模型”

3,一体化数据的不足

我并非鼓吹某单项数据万能,帕特诺对这些数据的不足了如指掌,没有直接使用一体化数据肯定是认为数据并不能直接代表他想实现的目标。

1)首先一体化数据考虑的是个人表现,而表现与个人实力之间并不完全划等号。表现是基于球队特定环境和特定打法下的产物,换个环境换个打法,是不是仍然有这种表现是需要证明的。而个人实力,比如身高,弹跳,力量等等似乎具有更强的通用性。

2)兼容性一体化数据没有体现在建队时候,球队本身的牺牲。也没有体现出来,因为球员个人的上限而对球队夺冠上限的影响。

3)年龄,伤病,位置等额外因素如果出现这些因素对球员当下以及未来会产生影响,而数据没考虑那么多。

4)波动和误差不可避免,不同一体化数据相关性不高,可信度存疑,仍然没有终极的一体化数据。

5)常规赛与季后赛有差别

基于这些因素,帕特诺以EPM为起点,花了一个多月的精力和无数的思考,最终来到了一个比起点更低的地方。或许别人做这些工作还远不如他,但这不妨碍他的档次分类的真实价值没那么高。

当然点评仍然是高质量的,因为点评是定性的,是简单的,然而给球员划分档次是需要定量的。就像一个证券分析师或股评专家,能把一个股票优缺点分析的让人叹为观止,但他其实并没有从市场里赚钱的能力。

当然你可以辩解,帕特诺的排名本质上不是什么实力排名,不是比赛影响力,不是带队能力,而是什么夺冠的概率,但这个辩解没有意义,当你放出来的,事实上你的概念就是大家默认理解的那个。事实上,他也没有真正做出区分,大样本下的比赛影响力和夺冠概率之间的区别,这实际是问题的关键。

你预先设置的种种让自己脱身的条件,也是可以批判的对象,就好比你搞个实力排名,在你的长文申明里添加一条,对长相帅的有额外加成,之后造成结果不合理而被批评,你不能怪人家没看你的长文说明。

你的说明是为了让结果更准确,而不是自己避免批评的理由。

当然帕特诺最鸡贼或理性的一点是,直接说明我的可能是错误的,大有本排名纯属虚构,如有不符,概不负责的意思了。

4,常规赛和季后赛

帮助球队赢球的程度,常规赛和季后赛不完全一样,常规赛由于样本量大,有足够多的分析工具。但季后赛样本量太小,一般的正负值类的数据就不那么好用了。这也给了主观判断提供了空间。

如果你这个球员,在大样本之下做不到更好地带领球队赢得胜利,却就是“硬实力”更强。那么平时他打球没有带着“硬实力”打球吗?

总之帕特诺和虎扑水友级别的轻视常规赛还是让我大吃一惊——常规赛不想赢,就是玩,季后赛才是真战场。

根据帕特诺的排名不难想象他的逻辑,他基本认为季后赛系列赛打到后期,球队战术都会不好用,比赛会变成一球球艰难地靠个人能力凿进去的单打大赛。

常规赛可能通过虐菜得的分赢的胜场,但季后赛无菜可虐时候,强强对话还有多少用?

常规赛通过团队战术得分,连打多场之后,战术还有多大用?

而小前锋在这方面具有天然优势。他的想法不是说一点道理也没有,但真实的比赛比这个想象复杂得多。

事实上季后赛确实与常规赛不完全一样,但对差异有多大的评估是关键,事实上常规赛和季后赛的差别可能远远比帕特诺印象流里小得多。他过高估计那些因素了。

旋猫工作室就写过一篇文章讨论过这个问题。通过比较2003年以来常规赛虐菜型球队和擅长打强队的球队在季后赛胜率争冠上的差异,原文如下:

“常规赛打强队胜率最高的队伍,胜率71.4%;打强队净胜分最高的队伍,胜率67.3%;总冠军打强队,胜率57.0%。

常规赛虐菜胜率最高的队伍,胜率94.0%;虐菜净胜分最高的队伍,胜率90.6%;总冠军虐菜,胜率88.9%。也就是说总冠军队的虐菜水平,和联盟最强虐菜水平是更接近的。

他们没进入前两组,往往只是排名差了一两名的区别。总冠军队有3支是明摆着打强队不行的(净胜分为负),但只有一支比较接近“虐菜无能”的评价。也就是11独行侠,他们百回合赢弱队“只有”8.2分(其他冠军球队都在两位数)。但即使如此,独行侠当季的虐菜战绩也有23胜3负,胜率进了虐菜榜前3。另外从2007-08赛季开始,总冠军球队从未在对阵弱队时输过3场以上比赛。

基本上可以认为整季的净胜分才是预测季后赛最好的指标,至于强队是靠强强对话还是虐菜打出超高净胜分的,并没有很重要,总冠军往往并不是最强的。

如果整个结论是成立的话,基本上就宣布帕特诺的分析,即便是科学的有理有据的,最终意义也不大,帕特诺脑补幻想更强更高更壮的季后赛,幻想中非常特定的对位,特定的技能在特定对局中的额外作用,占比微乎其微,甚至没法在数据统计掀起浪花。

常规赛和季后赛的数据的波动到底哪些只是随机的结果,哪些是必然的影响?帕特诺作为顶级数据专家不去利用数据分析常规赛和季后赛的差异,不去真正计算球员某方面能力,比如堆产量能力,在季后赛是不是真正获得额外的优势,这个优势有多大,而完全凭借脑补来下定义真的让人遗憾。

真实世界和想象世界的差别太大了,只要稍微多想一些,以18,19赛季火勇大战为例,双方无限换防之下,杜兰特是否成了勇士取胜的绝对支柱?18勇士是为何艰难又如何破解的?19勇士是如何在杜兰特下场之后胜出的?总决赛面对5个防阵级别的猛龙又是如何得分的?为什么去年的掘金能赢去年的快船?事实上就是真实的季后赛更接近真实的常规赛,而不是想象的季后赛。季后赛里偶然性事件和运气仍然占据主导。

当帕特诺不用数据分析,不再追求发言需要有依据的时候,他的偏见和谬误和别人并无二致。

5,帕特诺的偏差

帕特诺的问题当然不止上面,再提一些

1)替代偏差

当给你一个很难的问题,你事实上回答不了,但你用一个简单的问题来替代。并把简单问题的答案当做很难问题的答案。

比如问:吴亦凡是个什么样的人,如何评价他?

回答:我见过他几次,是个非常谦逊的大男孩。

这种回答就是把“吴亦凡是什么人”这种高度复杂难以回答的问题简化成“对吴亦凡的印象是什么?”

在比如问:中国经济怎么样?

回答:最近生意太难做了,中国经济肯定不怎么好。

这种回答把“中国经济”这种明显超纲的复杂问题,转化为“生意好不好”这种能回答的简单问题。

如何精准评价一个球员的强弱,本质上是尚未解决的难题,甚至有可能永远不能完美解决。帕特诺面对这个问题,本应该老老实实说我也不知道,但目前代表最先进理解的数据显示是怎样怎样的。

但他没有,他转化成了很多其他问题,而转化后的问题与初始问题的相关性,他的的确确没有去认真地证实过。

2)结论偏差

双标这种外人瞎眼可见的问题,在帕特诺那里却看不见。为什么会如此呢?因为帕特诺出现了结论偏差。

结论偏差的意思是,您先有了结论,再去寻找能证明这个结论的论据。多重标准是这个偏差下的必然结果。

杜兰特是1a,因为48分钟49分——高阶数据对杜兰特没有意义,单场比赛证明了自己。

字母哥是1a,因为FMVP不给1a说不过去——如果杜兰特没有踩线,就是1b。

詹姆斯是1a,因为以前错怪他,以后不会了——一朝被蛇咬,十年怕井绳。

伦纳德是1b,因为伤病——詹姆斯...。

库里是1b,因为体型缘故进不了1a——我73胜也是这个体型。

约基奇是1b——原因不明,夸了几句就晾过新科MVP了。

哈登是1b,因为偶尔防守冷漠——杜兰特大多数时候的防守什么水准?

利拉德是2a,因为首轮被约基奇压制——可是我有首轮单场55分,单场SRR历史第一,首轮RAPTOR历年第一。

很难想象这些荒谬的问题同时出在帕特诺的身上,把名字盖住,你甚至会以为是虎扑网友。但是从结论偏差的角度来讲,这是必然结果。他无法像大多数时候列出一大堆数据来说服你的时候,只能东一榔头西一榔头,不知所云用没有逻辑的话来凑数了。

那么无论常规赛,还是季后赛,无论大样本还是单场样本,利拉德都是更劲爆的存在,为什么杜兰特49分之后,帕特诺激动地给出1a,而利拉德55分那场,依然没有改变他第二档的命运?

为什么拉文一个赛季的高效是样本不足,不足以代表常态,而杜兰特一场比赛的超高效,就是代表常态吗?

帕特诺不以数据为标准的时候,他用直觉和偏见就是最终裁决标准,然后寻找论据是证实。排名后面的参考数据像是几只的无人问津的落汤鸡,只是为了证明帕特诺考虑周全用的。

而帕特诺之所以不把所有事情都说出来,是因为那些话说出来听起来不像正经人应该说的话——只有前锋才配1a。

6,考虑越多,噪声越大

经过多年的思考,卡尼曼的今年5月出版了新书《噪音:人类判断的一个缺陷》, 里面对专家的临床判断为什么不行找到更加系统深刻的原因。

专家之所以判断出的问题,是因为噪声太大了。

噪声与偏差是不一样的东西,但两样造成的伤害是相同的。

帕特诺想考虑的问题太多了,球员的传控,投射,速度,出手开发能力,伤病,兼容性等等,还要加权已有成就,又要考虑潜在的可能性,还要听取别人意见,还有年龄带来的可能变化。具体到某一个球员,还有具体的临时想到的内容,比如到库里,想到了“体型”,到了哈登,临时又想起了偶尔“防守冷漠”,这也证明超巨的排面,可以获得独一无二的参数。

卡尼曼认为,研究结果都表明,那些所谓微妙考虑的收益,比不上噪声带来的破坏力。

一项对847名行政职位候选人进行评估,每个人区分了几个指标,进行打法,结果用非常简单的模型,比如取平均值,也比专家的临床判断好。

机械计算的作用是可以消除噪声。

卡尼曼还有个洞见:复杂的模型也不一定更好,除非匹配了足够大的数据。

就像RPM2.0增加了二次追踪数据,计算复杂度增大数倍,但却因为样本量的不足而导致过度拟合的问题,反而误差增加,认可度降低了。

卡尼曼的建议是当你用机械计算时候,参数最好不超过五个。

7,群体决策的可行性

静易墨最近写文章在吐槽帕特诺排名之后,也不得不承认帕特诺的不易,因为他显然也知道换成自己或者其他人来搞这个排名,也绝不会更好。

当然他得意地认为自己参与的篮圈组织的“小规模专家组”方式做的排名是更好的方式。

篮圈等国内专家每年休赛期都会做一个自己的排名,他们主要的是方式是独立投票打分,然后取平均值的方式,这样可以中和偏好问题。

那么一群人会做出比一个人更好的判断吗?

关于群体的智慧说法由来已久,最津津乐道的故事是英国科学家伽尔顿发表的估算公牛重量的故事,集市上一只公牛在展台上,聚拢过来的人对牛的重量进行竞猜,一共800个人参与,各种人都有,其中很多猜测不乏非常离谱的,最后对所有竞猜的种类取平均值为1197磅,而实际这头牛的种类是1198磅。

伽尔顿总结“群体对于判断的准确性,要比预想可信的多”。

此外还有很多类似的故事,1968年美国军官克拉文用群体投票方式确定失踪潜艇位置,差别仅220码。

总之群体的智慧似乎有神秘的力量,能解决一般人无法解决的难题。

美国学者斯科特·佩奇对群体智慧找到了坚实的数学基础,佩奇的理论用数学公式表示就是:

1) 群体能力=平均个人能力+多样性

2)多样性>能力

这两个公式有严格的数学推导。

但群体的智慧并不总是管用,2006年美国一个棒球队由球迷投票决定球员的出场顺序和战术等,结果惨败。

佩奇给了多样性红利必须具备额外的条件:

1,问题足够难,一个人不好解决。

2,群体中的每个人要有一定能力。球迷就不行。

3,每个人都有自己的视角和解决问题的办法。

4,规模足够大。

那么对照一下篮圈的排名符合上面的几个要求呢?第一条符合,

第二条,有人符合有人不符合,但也大致差不多。

第三条基本不符合。

第四条不太符合,找不到那么多合适的人,但人数这条主要影响误差范围,可以将就。

第三条其实是最关键的,每个人的方法和视角不一样才能带来多样性红利。

大家都是一个圈里的,平时讨论足够多,思路基本大同小异。当然篮圈也曾为了增加群体的多样性而额外去找圈外人加入,但这样也不好使。说到底评价球员这个问题,直觉是严重不好使的,每个人都非常且必须依赖数据,而对篮球方法论的理解是相似的,只有高年级和低年级之分,如果你掌握的是低年级的判别方法,那么得出的结论也会更差。起不到更好的判别价值。

其实理解第三条的问题用卡尼曼的解释来理解会更合适。

卡尼曼区分了噪音和偏差是不同的问题。

用打靶为例,噪音大就相当于一群枪法差的人在打靶,会有偏的离谱的,但沿靶心四周分布,数量多了平均下来,仍然是靶心附近。

但另一个问题叫做“偏差”是系统性的问题,表现的就是打靶,结果大家都一致地把靶心位置看错了或者干脆枪本身的瞄准镜都有问题,一致地向一个方向偏,这种是系统性问题。靠取平均值解决不了。

篮球领域最不缺乏系统性认知偏差。大家都有偏差,而且方向差不多,只是有人偏得多,有人偏得少,偏得少的非要找一些偏得多人来投票,就像拿SPR和GMSC取平均值,也不会得到更好的数据一样。把TS%和FG%取平均值更是毫无意义。

所以帕特诺明知会有个人喜好和偏见问题,他解决的方式主要是咨询同事,也绝没有使用多人投票方式,他大概也认为,平均值也不会让结果变得更好。

另外之前提到的各种认知问题,比如峰终定律,比如锚定效应等等,会一致地对所有人造成偏差影响,毕竟大家看的是一样的球,舆论环境也是差不了太多,风评造成影响的也绝对不小。帕特诺的这个排名都能先入为主影响后续的其他排名。

那么是不是群体的优势绝对不可能呢?也不尽然

我认为仍然有两种方法可以让集体的发挥优势

第一种,所有人一起讨论一个好的模型,比如设定模型参数的系数如果搞不清,可以用投票的方式来确定。

第二种,所有人各自建立自己的数据模型,各自独立得出结果,然后用结果取平均值。

模型可以消除噪声,也可以一定程度消除偏见,因为大的偏见会让你的模型明显价值降低到无法看的程度,最终会被迫让你调整参数。

8,用机械计算方法做个简易模型

我就用一个非常粗糙简单的模型来给评级的话,再和帕特诺的比较一下,会有什么结果呢?

球员能力=EPM(本赛季)+RAPM(五年)+SPR(最近两年平均值)。

EPM代表当下赢球能力,但单年的数据有波动性和偶然性,然后通过五年RAPM来平衡,对成长中年轻人不大有利,所以17赛季后的年轻人直接取值为EPM,然后用SPR来增加通用能力,并给进攻球员一些额外加成,使得结果更符合大众认知。SPR用场均数据,对出场更长的球员更有利,出场低于24分钟的就用24分钟数据。

那么用这个模型得出的结果是如何呢?这是前30位。

事实上如果你不看具体的排名,与帕特诺的结论相似度非常高,前30人有27人是一致的,差别也就3个人,相似度高达90%。

我大概明白,帕特诺的主要框架其实也是根据自己模型算出来的,这也是他的排名价值高于一般美媒排名的真正原因,而不是因为他水平高。

只是他后面增加太多自己的“微妙考虑”了,这导致细致的排名还是有很多差别。

我的模型里第2-9名差别非常小,完全可以认为是同一档球员。而完全不像帕特诺所说的那样,5与10的差距比10到20都大。

如果把这个作为结果对照帕特诺的名单,可以得出一下结果:

第一档中,库里,约基奇被低估,都应该1a,杜兰特被高估,应该到第二档。字母哥,詹姆斯,伦纳德,哈登基本一致。

第二档中,巴特勒,戈贝尔,利拉德被低估。阿德巴约,塔图姆,米德尔顿被高估。

第三档中,唐斯被低估,应该第二档。布克被严重高估。

前30多了范乔丹,卡佩拉和洛瑞,少了布克,莫兰特和米德尔顿。范乔丹21赛季的RAPTOR,LEBRON和RPM三项高阶数据,都在前20,和这个模型是更匹配的。卡佩拉和洛瑞也基本没有问题,尤其是洛瑞多年来一直维持很高的水准,只是目前会受到年龄的影响而增加了不确定性。

布克的模型计算结果仅为9.76,比米切尔低得相当多,远远没有到能在20名附近的程度。布克这个槽点,确实太大了,这显然是就是帕特诺被噪声影响到了。

前面差距最大的基本就是库里和杜兰特。这两个人实际上是很多矛盾的集中体现。天赋,小样本,传统的临床判断与影响力,大样本,现代的数据模型之间的冲突。

我认为,你如果不用“叫兰特又不姓莫的球员可以加8分”这样的核武器规则,你绝对无法建立起一个比库里高半档又没崩溃的模型。

另外所有排名对戈贝尔的低估,其实就是认为防守作用小的多。我认为对防守的低估的重要原因是因为通常进攻球员的波动通常会更大,会有让人印象深刻的高光时刻。一场高效的四五十分的比赛也会造成更大影响,留下更深刻的印象,而一场低效比赛导致输球显然更容易被忘记。殊不知当你在评价球员时候,如果脑袋浮现的是他曾爆砍多少分,他曾如何一己之力赢得比赛,那么你已经被小样本的噪音给控制了。

整体上,我认为这个模型得出的结果比帕特诺好得多。当然这个模型是非常粗浅的,只是临时拍脑袋的产物,一方面肯定有无数更好的模型,另一方面却未必有好得多的模型。

模型还有个好处,只用一小点工夫整理数据就行,也不需要多高的篮球理解水平,而顶级专家帕特诺却要花一个多月。

最后要说的一点是,无论如何没有完美的排名,数据模型也有上限,误差总是不可避免,即便消除所有噪音和偏差,那么人类的认知边界也会限制模型的准确性,在这个过程中秉持着一致的逻辑也许是最关键的吧。

阅读 139933

这些回复亮了

discusser-avatar

老派篮球破壁人

· 天津

如果是远创的话那楼主就太厉害了!文采好、内容也都是干货,而且写的浅显易懂,从事物本质、科学严谨的道出了各种模型、各种排名、各种分析的局限性。好文章,必须顶!!!

亮了(46)
回复
discusser-avatar

魔法之翼楼主

ttppzz
GIF
收起

看了前面的文章,你就会知道,这是比帕特诺更好的模型,通篇文章就是解释这个。我看你写不少文章很有质量,但你在这篇文章下面真的是无理取闹了

亮了(25)
查看回复(1)
回复