Salaire moyen des ménages : distribution de Pareto (partie 3)

dans Brèves/News

Article rédigé par Monsieur P. Trehin, chargé de cours à l’université de Nice.

Tracé d’une distribution de Pareto étapes par étape

Prenons par exemple la distribution des établissements par des classes de taille des employés aux Etats-Unis en 1970. (source : County Business Patterns, US Department of commerce)

Nous calculerons successivement la largeur de chaque classe de taille, de la valeur moyenne de chaque classe de taille des employés et des tailles de chaque barre correspondante d’histogramme.

Largeur de classe de taille

Pour chaque classe de taille, soustraire la valeur limite inférieure de la valeur limite supérieure et rajouter une unité. Cela nous rappelle les méchants problèmes d’intervalle ?…

Par exemple, si la classe de taille est de 5 à 9 employés, la largeur de la classe sera calculée de la façon suivante : (9 – 5) + 1 = 5

Taille moyenne par la classe de taille

Si possible quand les données la fournissent, il vaut mieux utiliser la moyenne réellement observée des tailles dans chacune des classes. Quand cette moyenne n’est pas fournie, on peut faire une estimation statistique faisant l’hypothèse que nous avons bien une distribution de Pareto ce que nous testerons ensuite bien évidemment. Pour chaque classe, il faut multiplier la valeur limite inférieure de taille par la valeur limite supérieure et calculer la racine carrée de ce produit (c’est ce qu’on appelle une moyenne géométrique).

Par exemple :

1 x 3 = 3
___

V 3 = 1,732 soit 1,7

Tailles de chaque barre d’histogramme de classe de taille

Pour chaque classe, divisez juste le nombre d’unités observées par la largeur de la classe de taille

Par exemple :1762340 : 3 = 587447.6

Tracé :

Nous pouvons maintenant tracer la courbe en reportant sur l’axe des Y les valeurs normalisées pour les populations observées dans chaque classe de tailles, et en utilisant sur l’axe des X la valeur moyenne géométrique de chaque classe de taille sur le papier Log-Log ou employer un programme de régression mathématique sur un ordinateur choisissant l’option Log-Log pour l’axe des X et l’axe des Y.

Second exemple :

Distribution des réseaux informatiques en fonction du le nombre de postes de travail connectés. Evaluations venant d’une première analyse conduite en Espagne.

L’aspect irrégulier de cette courbe, contrairement à ce qu’on attendrait d’une distribution Pareto / log-normale doit attirer notre attention et nous conduire à l’analyse de l’accident sur cette courbe.

Ce dernier pourrait être en effet très réel et être lié à une situation spécifique (effet de seuil, réglementation de normalisation ou limites techniques).

Dans la plupart des cas il doit cependant probablement être dû à de la polarisation dans notre technique échantillonnage (ce qui était le cas ici) ou à des erreurs de calcul.

Autres utilisations des distributions de Pareto :

Jusqu’ici nous avons seulement employé la distribution de Pareto pour examiner la forme d’une distribution que notre connaissance de l’environnement nous inciterait à assumer pour être de « type de Pareto ».

Interpolation à de nouvelles classes de taille :

Nous pouvons employer les propriétés de stabilité de ces distributions pour en déduire des informations non actuellement disponibles, par exemple pour comparer deux distributions pour lesquelles les limites de classe de taille ne sont pas identiques. Nous pouvons renverser la méthode de calcul précédente afin d’obtenir, à partir de la forme de la courbe, la valeur des quantités correspondant à une nouvelle classe de taille hypothétique.

Avant de faire que calcul en sens inverse, nous avons d’abord à calculer les coefficients de l’équation de la courbe. Pour cela nous employons un programme d’analyse de régression, dans ce cas-ci une régression du second degré. Ce programme doit être appliqué au logarithme des variables car c’est seulement dans un espace Log-Log que l’ajustement de la courbe à une équation polynomiale du second degré est appropriée.

REG2DEG (Log nombre d’entités ; Log moyenne Géométrique des classes ) ==> coefficients.

REG2DEG :
Nom de programme : employez celui disponible sur votre logiciel de statistiques

J’employais dans mon travail un programme que j’avais moi-même écrit avec le langage de programmation scientifique APL1 pour calculer les coefficients de régression parabolique

Les coefficients (COEF) sont les valeurs A B et C de l’équation :
Y = A X²+ B X + C

Dans laquelle grand X est le logarithme de la moyenne géométrique de la classe de taille.

Et grand Y est le logarithme de la valeur normalisée du nombre d’entités appartenant à la classe de taille X

Une fois que nous avons les coefficients, nous pouvons les employer dans l’équation du second degré pour calculer le logarithme de la valeur théorique normalisée pour la valeur moyenne géométriques interpolée de la nouvelle classe de tailles.

POLYNOM (Log de la nouvelle taille ; COEF)

POLYNOM :
Nom du Programme qui calcule de nouvelles valeurs en utilisant les coefficients précédents
A, B et C dans l’équation avec la nouvelle valeur moyenne X’ correspondent à la nouvelle classe de taille interpolée :
J’employais dans mon travail un autre programme APL pour extrapoler ou interpoler des valeurs théoriques à partir des coefficients de régression parabolique déterminés auparavant.

Y = A X’ ²+ B X’+ C

Dans laquelle grand X’ est le logarithme de la moyenne géométrique de la classe de taille interpolée.

Et grand Y’ est le logarithme de la valeur normalisée du nombre d’entités appartenant à la classe de taille X’ interpolée

APL est un langage de programmation destiné aux calculs et à la modélisation scientifique. La puissance de ce langage permet de résoudre des systèmes d’équations à n équations et p variables et donne une approximation selon la méthode de Jordan lorsque le nombre d’équation est supérieur au nombre de variables. C’est même une des fonctions de base du langage. Le langage contient aussi d’autres fonctions de bases telles que logarithmes, exponentielles et autres fonctions de grande utilité en analyse statistique.

La valeur réelle des tailles de barre d’histogramme peut alors être obtenue par l’élévation à une puissance de la base de logarithme, 10 en général, à la valeur calculée ci-dessus.

Quantité normalisée = 10 Y ‘

Rappelez-vous alors de multiplier la valeur théorique tirée de la courbe par la nouvelle largeur de classe de taille, afin obtenir la valeur absolue.

Quantité réelle = Quantité normalisée x largeur de la nouvelle classe

Cette méthode permet de recalculer des valeurs théoriques pour un ensemble de classes de tailles afin de pouvoir comparer des distributions obtenues à partir de sources différentes. Il peut être nécessaire d’effectuer une règle de trois sur les valeurs théoriques calculées afin d’arriver au même total exact que la population originale.

Extrapolation à de nouveaux environnements :

La distribution de Pareto est extrêmement fréquente et montre un degré élevé de robustesse. Elle peut être utilisée pour prévoir avec un degré de confidence assez élevée, l’évolution de certaines populations. Les coefficients des courbes sont très stables et leur variation, le cas échéant, reste très lente et monotone.

Si nous avons peu d’informations sur un pays, nous pouvons employer la distribution disponible pour la même population dans un autre pour lequel on dispose de meilleures statistiques, et en déduire, avec un degré de confidence assez élevée, une distribution par taille de certaines entités pour le pays pour lequel nous ne l’avions pas.

Conclusion

En résumé, l’analyse de distribution de Pareto est un outil puissant car elle permet à l’analyste d’examiner la validité générale d’une distribution observée et de se sentir confiant sur les quantités d’entités observées. Quand on trouve une déformation anormale de la courbe, c’est aussi une information importante qui nous dirige soit vers un domaine de recherche pour essayer de comprendre la raison véritable de la forme anormale de cette courbe, soit pour la correction d’une cause d’erreur qui avait été négligée dans l’étude.

Paul Tréhin

Laisser un commentaire

Your email address will not be published.

*

*