Mai-Juin 2013 - Loi de Benford
2 juin 2013. La loi de Newcomb-Benford
Accepteriez-vous de jouer avec moi au jeu suivant ? Dans la dernière édition du Wall Street Journal, extrayons ensemble « au hasard » mille données chiffrées, portant sur les cours de bourse, les taux d’intérêt, les taux de change, etc., et ne retenons, pour chaque donnée élémentaire, que son premier chiffre significatif : c’est-à-dire le premier chiffre à gauche, si la donnée est un nombre supérieur à 1 ; ou le premier chiffre non nul placé après la virgule, si la donnée est inférieure à 1. Chaque fois que ce premier chiffre significatif est un 1, un 2 ou un 3, vous me payez un euro, et chaque fois que c’est un 4, un 5, un 6, un 7, un 8 ou un 9, alors c’est moi qui vous paye un euro. Je vous sens partant ! Avec six chiffres gagnants en votre faveur, contre seulement trois pour moi, vous pensez sans doute « raisonnablement » gagner dans environ 60% des cas, contre 40% pour moi, et donc empocher à peu près 20% x 1000 = 200 € à la fin de notre partie ! C’est étrange, parce que, de mon côté, je me garderais bien de vous décourager de jouer… ayant le pressentiment exactement inverse du vôtre, selon lequel c’est moi, et non pas vous, qui vais empocher les 200 €. Vous ne me croyez pas ? Libre à vous ! Alors, soit, jouons !
Une heure plus tard… Vous avez perdu et vous n’en revenez pas ? Vous estimez que j’ai bénéficié d’une chance extraordinaire, défiant toute loi admissible du hasard ? Détrompez-vous : cette issue du jeu était, tout au contraire, de très loin la plus probable et elle se reproduirait systématiquement, si nous rejouions un très grand nombre de fois, à partir de corpus de données très divers : avec cette édition ou une autre du Wall Street Journal ; avec un quelconque journal financier, européen, américain ou japonais, les montants monétaires y étant exprimés en euros, en dollars ou en yens ; ou encore, avec un manuel de géographie recensant la longueur des fleuves et la superficie des lacs ; ou encore, avec un traité d’astronomie où trônent les masses des étoiles et les distances entre galaxies ! À chaque fois, le 1, le 2 ou le 3 sortirait dans 60% des cas comme premier chiffre significatif et, in fine, vous me paieriez invariablement 200 €. Si vous poursuivez votre lecture jusqu’au terme de ce texte, alors vous comprendrez pourquoi l’occurrence du chiffre p comme premier chiffre significatif d’une donnée quelconque, que celle-ci soit extraite d’un journal financier, d’une table d’actuaires ou d’un ouvrage scientifique, est un évènement dont la probabilité, c’est-à-dire la fréquence, est une fonction P(p) décroissante de p, ayant pour expression :
P(p) = log10(p+1) - log10 p = log10(1 + 1/p)
En particulier, on a P(1) ≈ 30% et P(9) ≈ 5% : le 9 a ainsi six fois moins de chance que le 1 de sortir comme premier chiffre significatif ! Par ailleurs, P(1) + P(2) + P(3) ≈ 60%, d’où ma botte gagnante, dans le jeu biaisé que je vous ai hardiment proposé ! Telle est l’étonnante loi de probabilités dite loi de Newcomb–Benford , loi discrète définie sur l’ensemble numéral {1, 2,…,9}.
Pourquoi, de manière si surprenante, les premiers chiffres du système de numération décimale sont-ils de bien meilleurs candidats que les chiffres suivants, pour figurer comme premiers chiffres significatifs au sein d’une liste de données ? Pourquoi, contrairement à l’attente « naturelle », chaque chiffre de 1 à 9 n’a-t-il pas exactement la même probabilité, soit 1/9, d’apparaître au premier des rangs significatifs ? Répondre à ces questions et ainsi délimiter le champ de validité de la loi de Newcomb-Benford nécessite une réflexion préalable sur la structure des données statistiques extraites d’univers aussi variés que l’économie, la géographie, la physique, la biologie etc., ainsi que sur la nature profonde des grandeurs sous-jacentes que mesurent ces données.
Toutefois, avant de se livrer à une analyse formalisée, une remarque liminaire n’est pas inutile à ce stade. Imaginez que je vous propose maintenant le même jeu que précédemment, à un léger détail près : les données seront extraites, non pas d’un journal financier, mais du fichier de la police où sont consignées les tailles des prévenus, exprimées en mètres. Imaginez que je vous promette cette fois de vous verser un euro chaque fois que le premier chiffre significatif d’une donnée de cette liste est 2, 3, 4, 5, 6, 7, 8 ou 9, ne me réservant personnellement que le chiffre 1 comme unique chiffre gagnant. Acceptez-vous encore de jouer contre moi ? Je suis presque sûr que non, certain que vous êtes que très peu de prévenus – un euphémisme – mesuraient moins d’un mètre ou plus de deux mètres au moment de leur arrestation ; conditions qui seraient pourtant nécessaires pour que le premier chiffre significatif de leur taille en mètres ne soit pas 1 et que vous puissiez empocher le moindre euro !
Le hasard est rarement uniforme, sauf lorsqu’on l’y force artificiellement, comme dans le cas d’une roue de loterie ou du jeu de loto ; le plus souvent, le hasard est comme « guidé » par les propriétés structurelles des variables aléatoires qui nous le donnent à « voir », à travers les données statistiques qu’elles engendrent. Ce que révèlent les deux variantes de notre jeu, celle avec des données financières et celle avec des donnés biométriques, c’est que l’esprit humain semble mieux cerner la structure intime du hasard lorsque ce dernier résulte d’une variable dont l’échelle est contrainte, comme la taille ou le poids, que lorsqu’il résulte d’une variable sans ordre de grandeur fixé a priori, comme un indicateur financier. Êtes-vous maintenant disposé à élucider cette question jusque dans ses ultimes tréfonds ?