Salaire moyen des ménages : distribution de Pareto (partie 2)

dans Brèves/News

Article rédigé par Monsieur P. Trehin, chargé de cours à l’université de Nice.

Domaines d’applicabilité des distributions de Pareto

L’analyse ultérieure des distributions statistiques a démontré que les distributions de Pareto étaient en effet très communes dans divers champs d’application :

  • Distribution des entreprises par taille en nombre d’employés
  • Entreprises par taille de revenu annuel
  • Distribution des établissements distribution par taille en nombre d’employés
  • Distribution des centraux téléphoniques privés par taille en nombre de postes téléphoniques installés
  • Ménages en fonction de leurs revenus annuels
  • Distribution des Ordinateurs par taille de prix
    – par capacité de la mémoire
    – par puissance de calcul
  • etc.

Voici un exemple d’application de cette loi statistique aux USA : le nombre d’établissements en fonction de leurs tailles exprimée en nombre de personnes employées par ces établissements.

En vingt ans, malgré la crise pétrolière de 1973/1975, la distribution est restée extrêmement stable.

Autre exemple comparaison entre la distribution des établissements par taille d’employés aux USA et en Europe Midle East Africa (EMEA)1 :

(EMEA abbreviation Europe Middle East Africa)

On notera dans cet exemple que la méthode permet de comparer des distributions alors même que les limites de classes étaient différentes en Europe et aux USA.

La stabilité remarquable de toutes ces distributions, dans le temps mais aussi selon la région géographique fait de cette technique statistique un puissant instrument d’analyse et de prévision.

Quand on doit-on rechercher une distribution de Pareto ?

Les distributions de Pareto ont toutes en commun les caractéristiques suivantes :

Elles dénombrent un ensemble d’entités par rapport à une mesure de leurs tailles exprimées selon diverses modalités :

  • Nombre des entreprises ayant une certaine taille en nombre d’employés, en revenu annuel, en consommation d’énergie, etc.
  • Nombre des personnes ayant un certain niveau de revenus
  • Nombre des réseaux informatiques ayant un certain nombre de postes de travail connectés

La taille a une limite supérieure ouverte (au moins théoriquement)

  • Nombre d’employés dans une entreprise, au moins en théorie, peut se prolonger indéfiniment
  • La puissance d’un ordinateur, de même
  • Nombre de postes de travail connectés dans un réseau aussi

La mesure de taille est homogène

  • L’unité qui mesure la taille est la même pour l’ensemble de la population
  • Ordinateur : la taille est mesurée en puissance du processeur dans toute l’analyse, si l’on a choisi une autre mesure, taille mémoire centrale par exemple, on s’y tient pour toute l’analyse.
  • Nombre de postes de travail connectés dans un réseau est utilisée comme mesure de la taille pour tous les réseaux.

On travaille sur de grandes Populations

Il y a évidemment un certain degré d’expertise impliqué dans la décision d’employer une distribution de Pareto, basée sur l’expérience d’avoir fait face à de nombreux cas dans des domaines variés.

Tester l’ajustement à la distribution de Pareto

Rappelons nous que nous avons pour le moment seulement fait l’hypothèse que la distribution que nous analysons est de type « Pareto ».

La première étape consiste à tracer les données sur une échelle Log-Log pour vérifier visuellement que la courbe suit le modèle parabolique attendu. C’est un exercice de tracé très simple qui peut être fait en utilisant soit un papier à échelle Log-Log ou plus facilement, de nos jours, en choisissant l’échelle Log-Log pour l’axe des X et des Y dans le programme graphique de l’ordinateur.

Il y a cependant des pièges à éviter. Les données nous parviennent, en général, déjà groupées par classes de taille : (5 à 9) (10 à 19) (20 à 49) (50 à 99). Les frontières de classes de taille sont en général arbitraires et fournissent rarement des intervalles égaux.

On doit donc employer la méthode classique du tracé d’histogrammes normalisé, celle-ci consiste à employer le tracé normalisé des distributions statistiques et à déterminer le centre de classe pour permettre de tracer une courbe.

* La hauteur de la barre de l’histogramme est calculée en divisant la quantité mesurée appartenant à chaque classe de taille par la largeur de la classe de taille correspondante.

Cela permet une représentation normalisée des quantités, quelle que soient les largeurs des tailles de classes choisies.

* Le centre de la classe de taille n’est pas la moyenne arithmétique des extrémités mais la moyenne géométrique. C’est à dire la racine carrée du produit de la limite inférieure par la limite plus élevée.

L’abscisse du point tracé doit prendre en compte le fait que la taille moyenne dans chaque classe de taille est biaisée vers l’extrémité basse. Quand c’est possible, il vaut mieux utiliser la taille moyenne réelle. Quand cette moyenne réelle n’est pas disponible l’analyse empirique a prouvé qu’on peut employer la moyenne géométrique des limites de la classe de taille comme approximation acceptable. On notera que sur le tracé en Log-Log, ce point semble être au milieu de la classe, cela est dû à l’échelle logarithmique.

J’ai tracé volontairement le graphique ci-dessous de façon simplifiée pour que les éléments décrits ci-dessus puissent être facilement identifiés

Log du nombre d’entreprises Appartenant à la classe de taille X

L’essai visuel confirmera immédiatement ou infirmera l’hypothèse faite que la distribution est en effet une distribution (log-normale) de Pareto. Le plus minime problème sur la courbe2 indiquerait que les données ne suivent pas une distribution de Pareto. Nous devons nous rappeler que nous analysons une échelle Log-Log et que de petites variations sur le graphique représentent des rapports et non des différences absolues

Par exemple, une déviation de deux unités sur l’échelle signifie que nous avons deux fois la quantité ou la moitié de la quantité comparée à une distribution théorique de Pareto.

Une telle différence peut avoir diverses explications valables, c’est-à-dire que dans la distribution que nous observons, nous avons une situation spécifique se produisant à ce point précis de la courbe. Nous devrons alors rechercher les causes d’une telle déviation de la courbe à cet endroit.

Plus souvent, il s’agit d’un artefact, dû à notre méthodologie, qui déforme la distribution de manière « étrange ». Ceci peut être dû à un biais statistique lors du prélèvement de l’information (biais non détecté lors de la saisie des données, naturellement) ou d’une erreur dans l’approche d’extrapolation de l’échantillon, ou à n’importe quelle autre erreur de calcul.

Il se peut toutefois qu’une explication vienne confirmer la singularité de la forme de notre courbe : réglementation légales modifiant le comportement des agents économiques ou sociaux, effet de seuil, etc.

D’autres méthodes de test de validité peuvent être utilisées pour confirmer notre hypothèse avec des formules statistiques, par exemple le test du Chi Deux.

Je n’insisterai pas ici sur les méthodes de test de validité d’une hypothèse de distribution statistique.

1 Comment

Laisser un commentaire

Your email address will not be published.

*

*