简单探索近年野榜 TOP20 评语中的信息

avatar
关注

今年野榜这个TOP20着实让人疑惑。但是由于大部分水友是拿着翻译过的、比较片面的信息在争论,再加上我也确实对于HLTV这个数据宝库很有兴趣,所以我自己找了近几年HLTV TOP榜单的评语,试图简单探索一下有什么大家没注意到的地方,以及尝试回答“近年来HLTV排名的标准到底有没有变过”。这个帖子就来给大家分享一下我的发现,权当抛砖引玉。

一些前言:

我选择的评语只包括“为什么XY年的Top Z”这一段的内容,因为每一篇Top的评语中,只有这一段真正描述了排名产生的标准。另外提前说一句,这里的排名标准实际上应该理解为X这名选手为什么应该比他后一名的选手(或者是他之后的几名水平接近的选手)排名高、为什么比他前一名的选手排名低。这一点其实对于讨论排名是否合理很有意义,之后再聊。

我只选取了2022-2024年的评语一共60份。没有选取2020-2021的原因是这两年的比赛受疫情影响比较大,因此排名标准产生变化也很合理。没有选取2019年之前的评论则是因为据说当时的评审组成与现在不同,而讨论评审组成变化是否会导致评价标准变化是一件没有意义的事情。

由于样本量比较小,再加上最近写论文也比较忙,所以就没有做复杂的、真正的text analysisquantitative analysis。也因此我把这篇短文称作一次“探索”而非一次“分析”。

最后一个很有趣的知识点:HLTV TOP20虽然只由3名编辑决定,但是我们看到的文章实际上是分配给多位编辑撰写的。我推测他们的工作方式是在核心三人组确定排名后,给每一位TOP写一个note(或者一些影响排名的关键数据),然后分配给其他编辑写稿。因此,虽然我觉得今年TOP2评语里那段假设非常离谱,理论上也暂时怪不到NER0头上——因为m0NESY的评语不是他写的。然而好的一点是:由于一部分写稿的编辑没有权力参与评选,他们给出的数据基本上可以推断为核心三人给他们提供的、做出这项排名决定的根本理由。而倘若一项数据频繁在不同的编辑笔下出现,那就意味着这一数据在整个评选中占据重要地位。这给分析评论提供了一定的可信度。

 

先来个大家比较关心的:今年野榜有没有新增什么标准?

虽然NER0在给一位水友的回复中说“HLTV2016年开始就在使用场馆rating (arena rating)“作为评判标准了,但是很巧合的一点是,arena rating这个数据从来没有在2024年之前的评论中出现过(甚至arena这个词在评论中都很少出现,而且一般指代的是某个特定场馆)。而在2024年的评论中,只有TOP15的评选理由没有使用arena rating,因为狠人根本就没有可靠的arena ratingArena rating202419/20的出现频率也是所有数据中出现频率最高的一个,远超其他任何单项数据。

除了arena rating,还有什么是野榜今年的新发明(仅限评语)呢?答案是濒临淘汰比赛中的ratingrating in elimination matches)。这项数据在2024年被使用了8次(分别为TOP1,2,4,11,12,13,18,19),而在2022-2023从未被提及。

单就arena ratingelimination rating今年的兴起而言,我不觉得这可以直接拿来判断野榜今年歪屁股,但是作为一个关心数据的人,我很好奇野榜明年的评选会不会继续大量沿用这两个数据。如果确实如此,那么这两项数据就可以理解为野榜在修正自己的评选标准的过程中进行了评判标准的升级和更新;但倘若明年这两个数据又基本从评语中消失了,那我就不好说了。

 

孩载排名的问题在哪?

第二个问题来简单聊聊孩载排名。吧里有个很火的图片显示的是孩只有一项数据领先载而其他都落后,因此今年野榜完全是定制TOP2。这里有个不是很严谨的地方在于:如果其他的数据的确都无关紧要,那么这些领先都是无意义的,跟“载物的法语比小孩好“一样都没有实际意义。那么,到底有没有数据是野榜在排名中会使用,甚至在今年重点使用,却又恰好在孩载对决中变的不重要的呢?

答案我认为是有的,那就是TOP5 TOP10 rating。今年TOP5 rating一共被提及了13次(TOP1,4,5,6,7,9,10,12,13,14,17,19,20),相比而言在20232022各只有4次;TOP10 rating也被提及了13次(TOP1,3,4,5,6,7,9,10,11,12,13,17,19),而2023年是7次,2022年是4次。可以看到,这两项数据在今年被提及的频率大幅上升,并且在高位TOP和地位TOP的评选中都占据重要位置,这一点明显符合大家对于今年评选标准的印象。然而这两条却又完全从TOP2的评语中消失了,这点让人非常难以理解。另外值得注意的是,TOP20以及更大范围的rating从来没有作为重要数据在评论中提及过,所以载在那些数据上的领先放在过去两年也不会成为重要的评选参考。

那么其他那些zywOo领先的数据,有没有今年变的不如往年重要的呢?答案是也有。impact今年只被提及5次(TOP8,11,15,17,20),明显不如2023TOP1,2,4,10,11,14,16,19,20)和2022TOP2,4,5,6,11,12,15,16,17)。另外,impact在过去两年的高位TOP中都有多次提及,却在今年的高位TOP评语中完全消失了。Impact恐怕在今年的野榜眼里并没有什么意义,至少对于三巨头的对抗来说是这样。

ADR(W)2024TOP1,2,14,15,19,20;2023:TOP1,6,9,12,14,15,16,18,19;2022:4,5,10,12,13,14,16)和KPR(W) (2024: TOP1,2,6,7,19,20; 2023: TOP1,5,6,11,12,14,15,18,19,20; 2022: TOP2,6,10,14)也都相较去年出现了明显的下滑。因此载在这两项上的优势,恐怕也没有提供什么帮助。考虑到样本量比较小、差距也比较小,这个差别可以解释为每年的情况不同。当然如果是一篇论文的话,这里应该拿数据比较这几个数据在相邻选手间的差距是否在分布上产生了显著区别,有心人可以自行研究。

最后,超级精英赛事(Super-Elite)作为这两年新出的概念,在今年确实被大量利用(10次,20234次)。我觉得这一点是合理的。Big eventsbig matches在每一年都被大量使用,因此我没有进行具体统计而直接假设它们的重要性没有发生什么变化。如果这两项也有变化的话,那么可能跟实际使用语境(例如积极或消极的语气)有关,需要一些基本的文本处理和文本分析。

 

野榜到底为什么感觉“野“?

最后简单分享一下我对于HLTV排名的整体感觉。首先,我觉得任何一个对数据敏感的人都很难不对HLTV有好感,它们的数据工作量和水平毫无疑问远超网上绝大部分参与评论的水友。但恰恰是因为这一点,我对于拥有大量实用数据却用它们产生一些让人难以理解、甚至需要用“先射箭后画靶“才能解释的好的情况感到非常遗憾。

有很多人喜欢采用的一种排名方式是给每一项数据和荣誉进行赋值(权重),然后根据总和进行排序。任何一个有基本算术知识的人都能意识到这种做法是没有“正确性“可言的:一项数据权重的改变就可能让整个排名彻底改变,因而这种权重分配是否合理最终只取决于大家有多认可最后的排名,而跟权重本身的性质无关。但是,这种排名方法有一种听上去很蠢但是很关键的优点:它在自己的系统内是自洽而不会循环的,因而只要A排名高于BB排名高于C,那么你就不用去争论A排名为什么高于C。当权重不随年份变化时,这种自洽性还可以跨时间进行迁移,因为评判标准也不随时间而改变。

HLTV的评选体系恰恰陷入这样一个问题:或许他们有自己的评分体系来决定每年的TOP20,如果真的有那么他们也确实不应该公开,但至少他们似乎从来没有表示过这一点,而历年的排名似乎也并不支持这一点。HLTV的评语只集中在某位TOP跟前后少数几人的数据对比,正是他们的核心问题所在:他们没办法很轻易的说明“A排名高于BB排名高于C,那么A排名一定高于C”,对于数据差距不大的低位TOP来说更是如此。他们更倾向于对每一小组人进行特定的比较排名,却又在某些时候忽略了整体自洽,更很有可能在不同年份采用不同的标准进行评选。

另外,我觉得不能用“职业选手不在乎HLTV排名”来给野榜开脱。首先,职业很明显在乎野榜、甚至不只是TOP:你去看职业队那些猜人名队名的游戏VLOG,会发现很多人都会用HLTV排名来缩小猜测范围。这个圈子里的媒体总是从每一年的开始就让大家预测TOP候选,HLTV年终颁奖更是提升CS影响力的重要场合。其次,职业选手说“比起TOP他们更在乎冠军”肯定是真的,但就算他们不在乎,观众和粉丝也没有理由不在乎一个掌控着数据话语权的媒体、一个在这项赛事中具有举足轻重低位的第三方媒体的屁股到底正不正。

阅读 9959

这些回复亮了

discusser-avatar

九嶷缤兮

· 上海

是的。野榜最大的问题是,在前三名的评语中,对载物和第一名的donk都有大幅的批评,而对第二名的小孩完全不提他在前面大量使用的对top5,top10数据。在donk评语里甚至出现了如果他和小孩major表现互换这种逆天言论。donk作为一个突破手首死多都会被拿出来批评,而小孩的数据劣势却绝口不提。野榜可以定制数据,定制排名,但凡他也指出小孩的劣势和批评问题,但还是把top2给小孩,也不像现在这么恶劣。现在这个不止是排名问题,而是前三名的评语和标准出现了非常明显的倾向性以及粉丝属性。这对一个奖项的公平性和公信力是摧毁性的。摆明了说我就是要捧小孩,加上nero的采访,表达的就是如果不是donk逆天改命打了个major冠军回来,小孩major流脓top1我也给小孩。这太离谱了。

亮了(93)
查看回复(1)
回复
discusser-avatar

Luciferil

· 北京

简单来说排榜会分为几个步骤:1.把前30名选手分成若干堆,比如洞孩载一桌,尼儿若一桌,火箱大b寒王一桌,以此类推2.在每一桌内进行排序,说实话,这一步的排序依据对于我们都是完全未知的,但一定注入了评委的个人主观因素3.按照上述的排名再去找到相应的数据进行印证,最后写下评价。因此这本身就是一个先排名后写评价的过程,但坐同一桌的选手之间其实在数据层面互有优劣的,那我想把A排到B前面自然要对A的优势区间进行加权而对B的优势区间进行忽略,表现出的结果自然就感觉没有一个统一的标准。在坐一桌的选手中,除非某个选手直观表现足够的强,不然野榜的排名都可以说是有道理的,这也是donk能保住TOP1的原因,并非是donk的数据碾压,而是donk一年来给人的感受就是top1,同时上海major又加深了这次感受。用这个逻辑也能印证上一条中的主观性,因为这次受到了野榜偏爱的小孩,野榜的评价对于他的劣势一笔带过,而对于他的优势大书特书。甚至于在donk的评价下面可以看到说donk稳定性不足的评价,而这个评价的来源居然是首死数

亮了(21)
回复