Analyse de chemin (statistiques)

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

En statistique , l' analyse de chemin est utilisée pour décrire les dépendances dirigées entre un ensemble de variables. Cela inclut des modèles équivalents à toute forme d' analyse de régression multiple, d'analyse factorielle , d'analyse de corrélation canonique, d'analyse discriminante , ainsi que des familles plus générales de modèles dans l'analyse multivariée des analyses de variance et de covariance ( MANOVA , ANOVA , ANCOVA ).

En plus d'être considérée comme une forme de régression multiple axée sur la causalité, l'analyse de chemin peut être considérée comme un cas particulier de modélisation par équation structurelle (SEM) - un cas dans lequel seuls des indicateurs uniques sont utilisés pour chacune des variables du modèle causal. . Autrement dit, l'analyse de chemin est SEM avec un modèle structurel, mais pas de modèle de mesure. D'autres termes utilisés pour désigner l'analyse de trajectoire incluent la modélisation causale et l' analyse des structures de covariance .

L'analyse de chemin est considérée par Judea Pearl comme un ancêtre direct des techniques d' inférence causale . [1]

Historique

L'analyse des trajectoires a été développée vers 1918 par le généticien Sewall Wright , qui a écrit plus longuement à ce sujet dans les années 1920. [2] Il a depuis été appliqué à un vaste éventail de domaines de modélisation complexes, notamment la biologie , la psychologie , la sociologie et l' économétrie . [3]

Modélisation de chemin

En règle générale, les modèles de chemin sont constitués de variables indépendantes et dépendantes représentées graphiquement par des cases ou des rectangles. Les variables qui sont des variables indépendantes, et non des variables dépendantes, sont dites « exogènes ». Graphiquement, ces boîtes de variables exogènes se trouvent sur les bords extérieurs du modèle et n'ont que des flèches à une tête qui en sortent. Aucune flèche à pointe unique ne pointe vers des variables exogènes. Les variables qui sont uniquement des variables dépendantes, ou qui sont à la fois des variables indépendantes et dépendantes, sont dites « endogènes ». Graphiquement, les variables endogènes ont au moins une flèche à pointe unique pointant vers elles.

Dans le modèle ci-dessous, les deux variables exogènes (Ex 1 et Ex 2 ) sont modélisées comme étant corrélées , comme illustré par la double flèche. Ces deux variables ont des effets directs et indirects (via En 1 ) sur En 2 (les deux variables/facteurs dépendants ou « endogènes »). Dans la plupart des modèles du monde réel, les variables endogènes peuvent également être affectées par des variables et des facteurs provenant de l'extérieur du modèle (effets externes, y compris l'erreur de mesure). Ces effets sont représentés par le "e" ou les termes d'erreur dans le modèle.

Exemple de chemin.JPG

A partir des mêmes variables, des modèles alternatifs sont envisageables. Par exemple, on peut faire l'hypothèse que Ex 1 n'a qu'un effet indirect sur En 2 , supprimant la flèche de Ex 1 à En 2 ; et la vraisemblance ou « l'ajustement » de ces deux modèles peut être comparé statistiquement.

Règles de traçage de chemin

Afin de calculer valablement la relation entre deux boîtes quelconques dans le diagramme, Wright (1934) a proposé un ensemble simple de règles de traçage de chemin, [4] pour calculer la corrélation entre deux variables. La corrélation est égale à la somme de la contribution de toutes les voies par lesquelles les deux variables sont connectées. La force de chacune de ces voies contributives est calculée comme le produit des coefficients de voie le long de cette voie.

Les règles de traçage de chemin sont les suivantes :

  1. Vous pouvez tracer une flèche vers le haut puis vers l'avant le long de la suivante, ou vers l'avant d'une variable à l'autre, mais jamais vers l'avant puis vers l'arrière. Une autre façon de penser à cette règle est que vous ne pouvez jamais passer d'une pointe de flèche à une autre pointe de flèche : pile-face ou face-face, et non pile-face.
  2. Vous ne pouvez parcourir chaque variable qu'une seule fois dans une chaîne de chemins donnée.
  3. Pas plus d'une flèche bidirectionnelle ne peut être incluse dans chaque chaîne de chemin.

Encore une fois, la corrélation attendue due à chaque chaîne tracée entre deux variables est le produit des coefficients de chemin normalisés, et la corrélation totale attendue entre deux variables est la somme de ces chaînes de chemin contributives.

NB : Les règles de Wright supposent un modèle sans boucles de rétroaction : le graphe orienté du modèle ne doit contenir aucun cycle , c'est-à-dire qu'il s'agit d'un graphe acyclique orienté , qui a été largement étudié dans le cadre d'analyse causale de Judea Pearl .

Path tracing dans les modèles non standardisés

Si les variables modélisées n'ont pas été standardisées, une règle supplémentaire permet de calculer les covariances attendues tant qu'il n'existe pas de chemins reliant des variables dépendantes à d'autres variables dépendantes.

Le cas le plus simple est celui où toutes les variances résiduelles sont modélisées explicitement. Dans ce cas, en plus des trois règles ci-dessus, calculez les covariances attendues par :

  1. Calculez le produit des coefficients de chaque itinéraire entre les variables d'intérêt, en traçant vers l'arrière, en changeant de direction au niveau d'une flèche à deux pointes, puis en traçant vers l'avant.
  2. Somme sur tous les itinéraires distincts, où les voies sont considérées comme distinctes si elles contiennent des coefficients différents ou rencontrent ces coefficients dans un ordre différent.

Lorsque les variances résiduelles ne sont pas explicitement incluses, ou comme solution plus générale, à tout changement de direction rencontré dans un itinéraire (sauf pour les flèches à double sens), inclure la variance de la variable au point de changement. Autrement dit, en traçant un chemin d'une variable dépendante à une variable indépendante, incluez la variance de la variable indépendante, sauf si cela violerait la règle 1 ci-dessus (en passant par des pointes de flèches adjacentes : c'est-à-dire lorsque la variable indépendante se connecte également à un double à pointe de flèche le reliant à une autre variable indépendante). Lors de la dérivation des variances (ce qui est nécessaire dans le cas où elles ne sont pas modélisées explicitement), le chemin d'une variable dépendante à une variable indépendante et retour n'est compté qu'une seule fois.

Voir aussi

Références

  1. ^ Perle, Judée (mai 2018). Le Livre du Pourquoi . New York : Livres de base. p. 6. ISBN 978-0-465-09760-9.
  2. ^ Wright, S. (1921). "Corrélation et causalité". J. Recherche agricole . 20 : 557–585.
  3. ^ Dodge, Y. (2003) Le dictionnaire d'Oxford des termes statistiques. OUP. ISBN 0-19-920613-9 
  4. ^ Wright, S. (1934). "La méthode des coefficients de chemin" . Annales de statistiques mathématiques . 5 (3): 161–215. doi : 10.1214/aoms/1177732676 .

Liens externes