浅谈“东决哥”的伟大之处
——“东决哥”关于热火的预测通过“非门”大概已经连对了25场
By Cat Three
Hoopchina Published: 3/24, 2013
数据对我们理解篮球运动究竟有多重要?我可以打一个比方,这大概就像你在论坛上讲述自己通过微信摇到了一个美女,然后与之共度良宵之后大部分网友的反应:“没图你说个……”
数据之于篮球就像“图”之于每一个需要拿出来炫耀的艳遇一样重要。1985年的时候我还是个婴儿,但在29年之后我可以很坦然的跟朋友描述一场138-31的比赛。这场比赛发生在第13届亚锦赛,中国男篮和印尼男篮分别得到了左右两边的比分。我手头完全没有任何视频资料,但光凭这个比分我就足以让朋友瞠目结舌。当然,朋友同样可以拿出61-128的比分让我对所谓“黄金一代”的定义产生些许困惑(1996年亚特兰大奥运会,中国61-128负于南斯拉夫。如果你有兴趣,多说两句,这是我们第一次杀入奥运前八,这拨球员被定义为“黄金一代”,具体来说,我们输美国63分,输立陶宛61分,当然,我们赢了阿根廷和安哥拉)。比分当然是篮球比赛最直接的数据,看着这些离谱的数据,你甚至不用看比赛录像就知道场面上究竟发生了什么事情。就好像1962年3月2日晚上发生的那件事情几乎没有任何录像留存(不排除有私人录像存在),却依然让人感到非常震撼,此时我们有图有真相:一个平头一字胡男坐在那里,露出极为不自然的表情,大腿根部黝黑深不见底(人们关心这一点已经是很久以后的事情,那又是另一个数据奇迹,鉴于本文的纯洁性和旧闻的普及型,不作过多表述),他的手上拿着一张纸,上面写着简单的三个阿拉伯数字:1、0、0。
这场比赛究竟发生了什么只能靠回忆录来说明,但回忆录中有各种偏差,据称有超过2万人表示自己看过这场记录中只有4124人入场观摩的比赛。所以细节并不重要,比赛本身也不重要,甚至输赢这个本应该是篮球运动最重要的东西也在这一刻变得无足轻重(时隔多年之后,参加本场比赛的勇士球员阿特尔斯还要通过媒体向人们反复交代“大家都说张伯伦砍下100分但是比赛却输了但我们是真的赢了”这个事实;另外,阿特尔斯是本场勇士得分仅次于张伯伦的人,他砍下了17分),唯一让人们铭记的事实是张伯伦砍下了震古烁今的100分。这是NBA历史上得分的巅峰,而在之后漫长的50多年间,所有的砍分数据都在不断的让这个数字变得光辉灿烂——让我们重申一遍,50多年,NBA从未间断的50多年!
这就是数据能够给人们带来的直接反应。除了在传递《I’S》之际传递《灌篮高手》外,我们接触篮球的第一步大概是通过前主任正平·孙的播音音开始,直接视觉接触NBA比赛,凭什么受到刺激呢?是华丽的表演,刺激的攻防对抗,民族主义情绪(后来还有一些啦啦队资本主义腐朽的底裤风光)等都吸引着人们。但这些影音印象终究会随着时间逝去或变形,看完一场精彩的NBA比赛之后,跑到球场上的少年,用粗浅的形容词或者拙劣的亲身模仿讲述一个个片段,远不如喊出一句:“我X,今天姚明砍下了41分16板7助攻!”或者:“火箭22连胜了!”又或者:“105个!105个!!”
这些鲜明的数据一报出来,对于球迷而言都具备相当的唤醒功能,你不会记得姚明具体怎么砍下这些数据,也不记得火箭22连胜的每个片段,当然你更不知道洛杉矶凌晨4点的模样,但当这些数据陈列出来的时候,对你的冲击力依然存在。
所以数据的意义在于记忆重拾的那一刻更据抽象意义。具象的形容因人而异,偏差在所难免,但只要喊出数据,一定会唤起人们对事件本身的记忆,对于事实的还原度,要比印象要好上那么一些。
在过去的篮球世界里,我们能够接触到的更多是一些相对简单的数据。最直接的是比分,然后是得分、篮板,众所周知,连盖帽和抢断这样的数据都出现得相对较晚。关于数据统计的历史,可以追溯得相当遥远,按照管子的说法(就是管鲍之交的那个管),“不明于计数而欲举大事,犹无舟楫而经于水。险也。”
管子并不打篮球,他的理念却跨越时空和篮球数据专家们不谋而合。数据分析正在逐步扩散到篮球世界的每一个角落,从BBR网站上你可以查询到海量的资料,甚至以往倍受质疑的官网也在最近跟上了世界脚步,大卫-斯特恩发现,球迷不再满足于那些传说故事带来的画面感,他们需要更加细节的内容来充实自己的想象。斯大妈甚至因此斥责官网负责人赫姆斯,“为什么我们官网没有这些东西?为什么球迷还不能得到这些数据!”
虽然斯大妈后知后觉的官腔很接近某些政府官员在民营企业发财之后猥琐的态度(“为什么没有人民微博!”)但至少也从一个侧面说明了数据正在篮球世界中得到越来越多的关注,这种关注自上而下,从专家到球迷,又从球迷反馈到专家、球队经营、市场运营角度,等到数据可以拿来赚取真金白银的时候,我们不得不承认那确实是相当了不起的,就像我们必须承认赌博公司庄家是篮球专家一样,很多东西确实无法用金钱来衡量,但和NBA一起成长起来的球迷就像丈母娘的心一样欲壑难填,他们的需要造成了市场。 当然,这些数据已经不再局限于比分、个人得分、助攻、篮板等简单数据,NBA也已经跟随世界脚步进入了“大数据”时代。
著名数据网站SynergySports便是据此明码标价,一个赛季,关注一支球队的所有数据(以及每一个数据所对应的视频),你大概要付出140块人民币,要得到所有球队的数据和视频,你要付出300多人民币(这两个价格虽然很像拯救妇女时不同套餐的价格,但绝非笔者伪造,不过当笔者为了这点小钱向某财阀编辑申请经费的时候,被他用“时间流逝逐渐淡忘法”婉拒了。据可靠消息表明,这套系统在美帝卖得不错,从另一个层面表明美帝撰稿人生活之无忧)。
据说,仅仅一场比赛就可以产生100多万个独立数据。某日詹姆斯在对阵骑士的比赛中用了几次背身?几次篮下的出手?命中率几何?勾手用了几次?0-3尺距离呢?3-9尺距离呢?面框几次呢?高位跳投几次呢?多少次是利用掩护呢?多少次是单打呢?多少次是突破呢?多少次是跳投呢?多少次冲刺?加速度多少?多少次被击打发带?两次击打发带之间詹姆斯的得分效率会有怎样的提升?……数据可以填补几乎每一个细节,丰富到你无法想象。
我依稀听到遥远的东方反驳的声音在嚎叫:“防守无法衡量!”这个观点摆出来当然很容易,但也已经有点过时并耐腐了。
著名体育撰稿人西蒙斯曾经不无得意地提出一个属于他自己的观念,叫做“superstop”,大概的意思就是这种防守既不是盖帽,也不是抢断,甚至和卡位等等东西都没有关系,它是那种让对手远远一看就丢魂失魄,但是它不像间接助攻一样直观,也不像申公豹的“道友请留步”一样翻开《封神演义》就可以统计。具备这种素质的球员可以让对手在球场上进入繁复的思考状态——如你所知,球场上很多情况依靠多年训练出来的本能作决断,一旦进入思考状态,很多事儿就要变味,比如2011年6月的詹姆斯,显然想得就有些多,但是谁让他思考的呢?我以为是钱德勒。
和钱德勒之于2011的小牛一样,鲍文之于马刺,奥胖之于湖人,姚明之于火箭,巴蒂尔之于南沙滩,都隐隐让我们感觉有点“superstop”的能力在。西蒙斯认为这种能力对应的就是对手的“非受迫性失误”——和网球运动中那个统计很像的存在。当西蒙斯想到这一点时,他就像所有打电话给中科院的民科一样兴奋异常,他给自己的好友、数据专家、火箭总经理莫雷去了一个电话,“你们这帮废柴为什么不搞个superstop统计?这样就能量化篮球运动中最重要的防守了!”
电话那头的莫雷哈哈一笑,“那你以为我们为什么要海耶斯?”
莫雷是MIT斯隆运动分析会上的迈克尔-乔丹,但他不会是一个人在战斗,当他操作火箭队时,手头有4个数据分析团队来帮助他做这件事情;这个会议上的德雷克斯勒,霍林格,则在本赛季刚刚被聘为灰熊副总经理。霍林格以PER出名,但是在他到任之后,per值低达12的托尼-阿伦依旧稳坐球队首发位置。这应该不能说明霍林格的per毫无意义,这只能说明类似莫雷和霍林格这样的NBA球队管理层,每年拿着百万美钞,如果要搞数据分析,一定不会是以这些“简单数据”作为判断的基准。
那么在大数据时代,我们每个人花上300块就可以得到那么多的数据,所以我们就能正确清醒地认识一场篮球比赛了吗?
这时候,管子又说了:“遍知天下,而不明于计数,不能正天下。”
还是不行的。
海量数据在你面前,如果没有得到正确的分析方法,大概也不会得到更接近事实真相的结论。《Moneyball》就是体育数据分析领域的南方讲话,它影响深远到令人战栗,按照它的说法,“重点不在于收获更多数据,重要的是从新的角度找出更有效率评估方式”。如果“评估方式”或者“数据分析”不妥当,大概会轻易得出这十年来房价确实被遏制的结论。
显然我们不这样觉得。但那不能怪数据,数据不骗人,因为它们只不过是由一个个冰冷的数字组成的,只要确保它们不是来自中国统计局,那么每一个有真诚出处的数据都值得人们相信,2个篮板就是2个篮板,不会是其他什么东西(值得商榷的情况可能发生在诸如助攻这样的数据统计上,因为曾经有人分析过保罗在主场的助攻数要比客场多一些,这种人为的数据偏差可能在CBA联赛里更为普遍,如果你还记得2006年刘炜一役拿下助攻王这件事情的话。但在大数据面前,这些都是可以被剔除的因素)。
骗人的是人(当吴佩慈和古墓丽影版安吉丽娜-朱莉同时出现在你面前时,你绝对不会相信她们同样是36C的罩杯)。因为分析工具本身是由人去制定、修正的,而在体育运动领域,使用一套工具而拒绝另一套,这里面就可能产生一定的倾向性。甚至有极端者认定这样一个事实:“没有不带倾向性的数据”。意思就是从来没有任何数据是所谓“原始”的,而看起来客观公正的数据分析贯穿了从构建到解读的全过程。
——芜杂的数据流充斥着篮球场,而且将在未来成为我们看待这项运动的主流。
事实是这样吗?或许,因为我们现在在更多论坛或者其他什么交互界面上都可以看到关于篮球的讨论更多开始引入数据。现在有太多人可以先把一个观点列出来,然后用更多数据去作证自己的观点,而非“我就是觉得……”,或者“不信你去看视频……”,亲历者的口述甚至眼睛都有可能欺骗你,看起来数据不会,即便数据分析有时候会,但在不断的讨论和否定-肯定过程中,也许我们可以更接近事实本身。
但首先要有事实这个东西存在。如果光从数据去分析,不是每一个人都能计算出詹姆斯把天赋带到南海岸后夺冠的概率有多少,不过,一定会比他留在骑士更大一些,这是惯常的观点。那么,从这个概率数据出发进行分析,我们会得出詹姆斯转会的原因之一如其所言“为了冠军”,但是我们如何去厘清2008年奥运会期间风尘三少之间发生了什么,又如何判断莱利的言辞对詹姆斯究竟造成了多大的影响。
再举一例,我们怎么去透过数据理解邓肯减工资留在马刺的原因?哦你会告诉我这是出于一些小小的,可能更多被我们忽视的,被掩盖在“business is business”背后的东西——人际关系。
笔者才疏学浅,至少在目前我尚未得知有什么样的数据能够清晰的探明人际交往之间的细微末节。但这些对人,或者回到本文所指的对象,对篮球运动事实上是存在影响的。或许数据可以说明2008年的火箭战斗力究竟在当时的联盟里排名几何,甚至也可以通过它分析出火箭在缺少了姚明之后继续连胜的难度之大,不过,它该如何分析穆大叔的公鸭嗓子在更衣室里弥漫时对队友产生的效应?
就好像数据能够轻易分析出本赛季热火第23场连胜时,凯尔特人是怎样的战斗力,人员对比,球队攻防数据,各方面都可以给出一定的结果,并呈现在从论坛人品搞笑预测到拉斯维加斯赌坊盘口上去,不过,人们该如何理解詹姆斯在这场比赛中拿下的高数据,十年来以凯尔特人为背景的詹姆斯成长史,又该如何通过数据去分析?而这样漫长的成长史,又会从多大程度上影响这样一场常规赛的意义,如果这些东西不考虑,那么它就是一场令热火成为联盟历史第二连胜创造者的关键比赛。
即便如此,你还要想一想湖人拿下33连胜的时候,究竟发生了什么。
数据分析既不能越过人际关系,也无法准确还原事件背景。从这个层面上来说,篮球要比《moneyball》这本书所指向的棒球复杂得多,这是一项更团队运动,而且还要延伸到球场内外,每一句垃圾话,每一个眼神,每一次对裁判竖起大拇指,每一次夜店不愉快的被嘲讽经历,都可能对这项运动产生相当大的影响。
大数据正在将球员变成更可控的商品,在球队管理层和依附于这项运动谋生的写作者手中,数据分析将成为他们评估、选择、交易、签约球员的利器,但他们的目的是为了让这项运动变得更吸引人,让比赛变得更为精彩,从而让收益更大。
而为观看比赛买单的终究还是球迷。所以数据分析只是间接为球迷服务,而球迷可以通过数据分析更好的理解一场比赛,同时还具备将其弃之如敝屣的权利,因为“篮球运动本身的有趣之处,远胜任何一种数据分析。”
从科学的定义上而言,可证伪性是其重要的基础,当你提出一项无法被证伪的观点时,这在科学上没有任何意义,从心理分析到赛后数据分析,看上去都是一种无法证伪的后知后觉——“有本事你拿你的数据分析理论去预测啊!”
从这一点出发,我们才能洞悉东决哥的伟大之处。
便是如此。
performance
Cat Three analyzes data and writes for hoopchina.com, which also produces a range of pornographic information and probably be considered as “one of the most pornographic basketball websites”。