Le Paradoxe de Simpson en NBA

« Il existe 3 types de mensonges : les petits mensonges, les gros mensonges et les statistiques». Cette phrase est très connue mais elle est particulièrement adaptée au monde de la NBA dans lequel on voit des statistiques absolument partout. En basket, chaque action est différente de la précédente mais les statistiques NBA traditionnelles s’ajoutent pourtant entre elles sans distinction. Si un joueur réussit par exemple un dunk en transition puis rate un tir à 3 points, il sera à 1/2 (50%) aux shoots, les 2 shoots tentés sont très différents l’un de l’autre, le niveau de difficulté n’est absolument pas le même, mais on les regroupe tout de même sous la même statistique, en l’occurrence ici les tirs tentés, et ce raccourci peut conduire au Paradoxe de Simpson.

Introduction au Paradoxe de Simpson

Expliquons ce paradoxe avec un exemple sous la forme d’une question très simple. Qui des Warriors ou des Knicks est la meilleure équipe au rebond cette saison ? Pour vous faciliter la tâche, voici les stats aux rebonds de ces 2 équipes selon nba.com

Réponse A : Les Warriors, ils sont meilleurs aux REB%.
Réponse B : Les Knicks, ils sont meilleurs aux Rebonds Offensifs ET Défensifs.
Réponse C : Il y a un bug dans les stats de Nba.com, n’essaie pas de m’embrouiller !

Bon alors déjà on se rassure, les stats sont parfaitement correctes. Il s’agit là d’un paradoxe de Simpson, en même temps c’était le nom de l’article donc on aurait pu s’y attendre. Si on prend la définition de Wikipédia pour définir ce paradoxe, ça nous dit : Le paradoxe de Simpson est un paradoxe statistique dans lequel un phénomène observé de plusieurs groupes (Rebonds offensifs et défensifs) semble s’inverser lorsque les groupes sont combinés (Rebonds totaux). C’est bien le cas ici, en regroupant les 2 types de rebonds, les Warriors qui étaient moins bons sur chacun des 2 rebonds semblent dominer dans la catégorie globale.

La bonne réponse à ma question était bien la réponse B : New York est une meilleure équipe aux rebonds que Golden State puisqu’ils sont meilleurs aux rebonds défensifs ET offensifs.
La stat REB% nous induit en erreur parce qu’elle regroupe deux types de rebonds (offensifs et défensifs) qui sont très différents l’un de l’autre en termes de difficulté.

La plupart des équipes ratent autant de shoots que leurs adversaires à peu de choses près, cela leur procure autant d’opportunités de rebonds de chaque côté du terrain. Les Warriors ne sont pas comme la plupart des équipes et ils ratent beaucoup moins de shoots que leurs adversaires. Ils ont donc plus souvent la possibilité d’engranger des rebonds défensifs qui sont plus faciles à attraper que leurs homologues offensifs, ça leur permet ainsi de faire grimper plus facilement la stat REB%.

Imaginons le cas extrême d’une équipe qui ne rate aucun shoot, tout en captant seulement 60% des rebonds défensifs disponibles. Cette équipe sera en réalité très faible au rebond mais dominera pourtant largement la ligue au REB% avec un score de 60%.

Le Paradoxe de Simpson dans les Tirs

S’il y a bien un secteur dans lequel on regroupe tout et n’importe quoi sous la même stat en négligeant des dizaines de paramètres, c’est bien dans le domaine du shoot, il est donc important de faire bien attention en manipulant les différentes données qui essaient de déterminer quel joueur est le plus adroit au tir.

La statistique la moins pertinente est évidemment le FG%, on retrouve très souvent ce paradoxe lorsqu’on sépare intuitivement les tirs à 2 points et les tirs 3 points. Si on étudie par exemple les statistiques aux shoots de ces 3 joueurs : Chris Paul, Jimmy Butler et Ish Smith.

On obtient les chiffres suivants sur la saison 2017-2018

On voit bien que Ish Smith a le meilleur FG%, alors que c’est aussi le moins bon à 2 points ET à 3 points, Chris Paul au contraire est assez nettement le meilleur joueur parmi ces trois-là à 2 points ET à 3 points mais il possède un FG% très moyen. C’est un paradoxe qui arrive très souvent, c’est bien évidemment dû au fait qu’en proportion CP3 prend beaucoup plus de tirs à 3 points (plus difficiles) que ses 2 compères.

On observe ce paradoxe constamment. Par exemple, cette saison Demar DeRozan a progressé par rapport à l’an passé à 2 points Et à 3 points, mais son FG% a pourtant reculé étant donné qu’il prend désormais beaucoup plus de tirs à 3 points.

Demar DeRozan aux shoots sur les 2 dernières saisons
Dans ces cas-là, la séparation 2points/3points est très facile à remarquer, tout le monde sait que Chris Paul est un meilleur shooteur que Ish Smith et il est facile et intuitif de comprendre que la raison pour laquelle Ish Smith possède un meilleur FG%, c’est parce qu’il prend moins de shoots de loin. Il existe cependant d’autres biais qui sont beaucoup plus difficiles à détecter et qui peuvent induire en erreur même les observateurs les plus attentifs.

Comparons par exemple 2 excellents shooteurs à 3 points : Kevin Durant et Joe Ingles.

Cette saison Kevin Durant shoote à 41,9% (173/413) à 3 points et Joe Ingles shoote à 44% (204/464). Il est facile de dissocier les FG en deux catégories de difficultés différentes, les tirs à 2 points d’un côté et les tirs à 3 points de l’autre. Mais lorsqu’on regarde seulement l’adresse à 3 points, on a tendance à ne pas se poser de questions et à simplement conclure que cette saison, Joe Ingles a mieux shooté que Kevin Durant.

Et pourtant, là encore on peut les séparer en plusieurs types de shoots qui sont plus ou moins faciles, Catch n Shoot vs Pull-Up, 3 points dans le Corner vs 3 points dans l’axe ou encore Shoot ouvert contre Shoot couvert. On va s’intéresser à ce dernier critère pour montrer en quoi ces chiffres du 3pts% peuvent être tout aussi trompeurs que le FG%.

Dans cet exemple, je vais considérer qu’un shoot est ouvert s’il n’y a aucun défenseur à moins de 6 pieds (1m80) du shooteur, les chiffres sont donnés par nba.com.

Kevin Durant et Joe Ingles sur les shoots ouverts cette saison

Kevin Durant et Joe Ingles avec au moins un défenseur à proximité cette saison
On retrouve ici ce même paradoxe, Kevin Durant est meilleur sur les shoots ouverts ET sur les shoots couverts mais il a de moins bons résultats au 3pts% simplement parce qu’il prend beaucoup moins de shoots ouverts que Joe Ingles.

La Différence de Schedule

Pour conclure, étudions un exemple de ce paradoxe qui se cache dans un domaine un peu moins attendu : la difficulté du calendrier.

Le Heat a gagné 2 matchs de plus que les Clippers cette année, mais vous le voyez venir, on peut séparer les matchs joués face à l’Ouest et face à l’Est, et on obtient alors les chiffres suivants.

Miami est à 31-21 (59,6%) face à l’Est et à 13-17 (43,3%) face à l’Ouest
Los Angeles est à 18-12 (60%) face à l’Est et à 24-28 (46,2%) face à l’Ouest

On obtient encore ce même Paradoxe, les Clippers ont un meilleur bilan face à chacune des 2 conférences mais se retrouve derrière car ils ont joué plus souvent face aux équipes de l’Ouest. Celui-là est assez intuitif, même si on a trop souvent tendance à exagérer l’impact que peut avoir le calendrier sur le bilan. Les Clippers et le Heat ont joué 56 matchs identiques comme chaque année (2 matchs contre chacune des 28 autres équipes de la ligue), il se sont affrontés 2 fois et n’ont eu que 24 matchs face à des adversaires différents. Ces 24 matchs plus ou moins difficiles peuvent provoquer un certains désavantage pour les équipes jouant dans la conférence difficile, mais la différence ne sera jamais très significative.

Comme je le disais en introduction, dans les statistiques en NBA on regroupe dans une même catégorie des actions pourtant très différentes les unes des autres, cela permet de voir en un coup d’œil comment s’est comporté un joueur. Malheureusement, quand on gagne de la simplicité, on perd de l’information. Lorsqu’un boxscore nous dit que James Harden a réalisé 8 passes décisives, cette statistique est très facile à assimiler mais elle ne nous dit finalement pas grand chose. À qui a-t-il fait chacune des 8 passes ? Était-ce pour un tir à 3 points ou 2 points ? A-t-il créé un décalage avec chacune des passes ? Le shoot était-il contesté ? Qui était son défenseur direct ? Qui étaient ses coéquipiers sur le terrain ? Était-ce en transition ou sur attaque placée ? Même si la réponse à ces questions est différente pour chacune de ses passes décisives, le boxscore les réunit indifféremment dans la colonne « passe décisive ». On a alors l’illusion de savoir ce qu’il s’est passé dans un match alors qu’on en a finalement pas la moindre idée. Pire encore, on a vu que réunir des actions différentes dans une même colonne statistique pouvaient carrément conduire à des informations paradoxales, c’est pourquoi il est important de prendre toutes les statistiques avec des pincettes surtout celles qui ont l’air implacables.

Laisser un commentaire