Salaire moyen des ménages : distribution de Pareto (partie 1)

dans Brèves/News

Article rédigé par Monsieur P. Trehin, chargé de cours à l’université de Nice.

Cet article présente de manière simplifiée une méthode puissante d’analyse de distributions statistiques de populations spécifiques en fonction de la taille des différentes entités qui les composent. J’ai utilisé et perfectionné cette méthode pendant ma carrière à IBM, pour des analyses de structures de marchés dans le domaine des produits informatiques ou de réseaux informatiques ainsi que de marchés pour des centraux téléphoniques privés, domaines dans lesquels la taille des établissements et des entreprises ainsi que leur distribution statistique permettait une modélisation prévisionnelle relativement précise.

En effet : Ce type de distributions est remarquablement stable, dans le temps et dans l’espace selon les divers secteurs géographiques et est connu sous le nom de  » distributions de Pareto », du nom de Vilfredo Pareto, célèbre économiste/sociologue Suisse. Il a découvert qu’au-dessus d’une certaine taille, la répartition cumulative du revenu des ménages, une fois tracée sur un graphique Log-Log, forme une ligne presque droite. La théorie a été depuis affinée, la méthode n’en est que plus efficace.

L’échelle Log-Log est généralement employée dans l’analyse de la distribution reliant le nombre de personnes à leur niveau de revenu, mais est également employée pour analyser les distributions statistiques suivantes : nombre d’établissements industriels et commerciaux, le nombre d’entreprises industrielles et commerciales, de Centraux téléphoniques privés, etc. par rapport à leurs tailles respectives exprimées par des mesures appropriées aux entités analysées: nombre d’employés dans les établissements ou les entreprises, : chiffre d’affaire annuel dégagé par les établissements ou les entreprises ; nombre de postes de téléphones reliés aux centraux téléphoniques privés, etc.). Ces distributions suivent, en général, une « Loi de Pareto » encore appelée « Distribution de Pareto ».

Nous proposerons une variation à la technique classique d’analyse de la distribution de Pareto qui donne des résultats plus précis et sur un plus grand domaine de taille que la méthode de Pareto pure.

Rappels

Pareto a découvert vers 1875 la distribution qui porte maintenant son nom en étudiant la répartition des revenus des familles en Suisse. Il était communément admis qu’il y a plus de familles avec un bas revenu que de familles avec un revenu élevé et l’observation factuelle confirmait cette idée. Ce qui était alors encore inconnu c’est que ces distributions ont une forme très régulière.

Pareto dans son analyse des répartitions du revenu des ménages des familles s’est retrouvé devant un problème de représentation graphique.. En effet, étant donné l’étendue des écarts de revenus d’un côté et l’étendue encore plus large des populations regroupées dans les diverses classes de niveau de revenu (Se comptant en millions dans les classes à bas revenu, et en centaines, voir dizaines pour les classes à revenu très élevés), Pareto a dû employer le papier graphique Log-Log afin de condenser les échelles et de pouvoir représenter toutes les valeurs sur un même diagramme.

Il a alors remarqué que non seulement le nombre de familles ayant des revenus bas était effectivement et significativement plus élevé bas que le nombre de familles avec des revenus élevés, mais en outre, que la distribution suivait une ligne droite sur un graphique Log-Log. Plusieurs autres études ultérieures, à d’autres époques, dans d’autres pays, ont conduit à un résultat empirique surprenant : toutes ces distributions suivaient une loi statistique identique quelque soient les pays ou les époques soumises à analyses.

Pareto avait utilisé des effectifs cumulés dans son analyse des distributions de revenus. C’est sur ces effectifs cumulés que le tracé d’un une courbe cumulative de distribution a fait apparaître la linéarité de la distribution sur une échèle log log.

La recherche empirique a prouvé que les caractéristiques de la distribution suivent la même loi, sans utiliser des effectifs de classes cumulés. Le reste de cet article se concentrera sur cette dernière situation de distributions non cumulatives des effectifs de chaque classe.

Dans la figure ci-dessous, on a une visualisation de ce que nous venons de décrire.

Figure 1 : Distribution des revenus en fonction de la taille du revenu

Log du Nombre de familles
Avec un revenu X

La ligne droite, en échelle logarithmique, sur une partie du graphique se prête aux calculs mathématiques faciles.

Y = A X + B

Dans laquelle grand X est le logarithme du niveau de revenu petit x, et grand Y est le logarithme du nombre de personnes ayant un revenu petit x ce qui évite la notation lourde :

Log( y ) = A log (x) + B

Après transformation, comme la coefficient A est négatif, l’équation arithmétique correspondante est une hyperbole :

Cette forme de droite est très reconnaissable et permet d’orienter les recherches ultérieures. Elle permet aussi l’interpolation de valeurs intermédiaires absentes, l’évaluation de valeurs pour des limites de classe de taille différentes, etc.

La distribution de Pareto est cependant en échec pour fournir un bon ajustement à l’extrémité inférieure du continuum de taille, où une ligne droite ne s’adapte plus aux données observées. En fait Pareto lui-même avait exprimé l’idée que son observation n’était valide que seulement au-dessus d’un revenu minimum X0. Le même phénomène se retrouve dans les autres distributions ; le classes de taille inférieures ne suivent plus une ligne droite en dessous d’une certaine taille

L’analyse empirique, avec l’aide de calculs informatisés, m’a conduit à utiliser un ajustement du second degré sur les effectifs de classes normalisés plutôt qu’un ajustement linéaire. Je me suis alors aperçu que l’ajustement avec une parabole plutôt qu’une ligne droite, permettait de prolonger vers les plus basses classes de taille un ajustement très précis de la courbe à la population analysée1.

Des recherches bibliographiques m’ont permis de vérifier la validité de cette approche en effet certains statisticiens avaient déjà commencé à employer des distributions plus sophistiquées que la distribution de Pareto : la distribution « log-normale ». Une fois transformée par une échelle Log-Log, la technique d’ajustement emploie une équation parabolique au lieu d’une équation linéaire. Mais compte tenu de la plus grande complexité des calculs de régression parabolique par rapport à ceux de régressions linéaires, il semble qu’ils aient assez peu réutilisé cette technique d’ajustement malgré sa meilleure adéquation aux populations analysées. Toutefois j’avais trouvé une ou deux publications où ces chercheurs concluaient qu’à partir d’une certaine taille les distributions de Pareto et les distributions log normales devenaient insignifiantes au niveau statistique.

Mais le résultat le plus intéressant dans la pratique est de permettre une extrapolation plus précise dans les tailles basses de la distribution, voir note N°1

Y = A X²+ B X + C

Dans laquelle grand X est le logarithme du niveau de revenu petit x

Et grand Y est le logarithme du nombre de personnes ayant un revenu petit x

L’analyse empirique prouve que cet ajustement avec une régression du second degré donne de très bons résultats et qu’au-dessus d’une certaine taille elle est statistiquement indiscernable de la distribution originale de Pareto. Un calcul mathématique simple prouve qu’après transformation et retour à une échelle arithmétique, l’équation du second degré devient celle de la distribution Log-Normale. Dans le reste de cet article j’emploierai le terme de distribution de Pareto comme nom générique puisque ce terme est relativement mieux connu, tout en gardant à l’esprit que le véritable nom de la distribution est Log-Normale.

Laisser un commentaire

Your email address will not be published.

*

*