Données de Pearson en 1901 dans IBM SPSS

Données de Pearson en 1901 Avant de réaliser une ACP sur une matrice contenant plusieurs variables (comme c’est généralement le cas), nous illustrons la technique à l’aide d’un exemple très simple basé sur des données génériques issues de l’utilisation innovante de la procédure par Karl Pearson en 1901. Cette approche permet de comprendre ce que fait l’analyse en composantes sans trop s’immerger dans la signification des variables.  Considérons des données sur deux variables, X et Y : Pour réaliser l’ACP dans SPSS : ANALYSER → RÉDUCTION DE DIMENSION → ANALYSE FACTORIELLE. Nous déplaçons les deux variables X et Y dans la boîte Variables, puis sélectionnons Extraction. Sous Méthode, choisissez Composantes principales (ce sera l’option par défaut), puis cochez Matrice de covariance et Graphique des valeurs propres. Sous Extraire, cochez Basé sur les valeurs propres supérieures à 1 fois la valeur propre moyenne. Assurez-vous que Solution factorielle non-rotée est sélectionnée  SPSS affiche d’abord ce qu’on appelle les communautés : Nous discuterons de ces résultats plus en détail lors de l’analyse factorielle dans le chapitre suivant. Pour l’instant, sachez que puisque nous analysons la matrice de covariance, les communautés initiales correspondent aux variances des variables soumises à l’ACP. La variance de la variable X est égale à 6.266, tandis que celle de la variable Y est égale à 1.913. Nous reviendrons sur les communautés d’extraction dans l’analyse factorielle. D’un point de vue pratique, pour l’ACP, vous n’aurez généralement pas à accorder beaucoup d’attention à ces communautés (contrairement à l’analyse factorielle), donc nous passons directement à l’examen de la solution de l’ACP. SPSS recalcule également les communautés en partant de valeurs initiales de 1.0 pour chaque variable. Ensuite, SPSS présente les principaux résultats de l’ACP : Dans le tableau Variance totale expliquée, nous voyons les principaux résultats de l’ACP. Nous nous concentrons uniquement sur les composantes brutes. Nous notons les éléments suivants : Les valeurs propres initiales de 8.111 et 0.069 représentent les variances des composantes. Comme il y a deux variables soumises à l’ACP, SPSS calcule deux valeurs propres initiales. Il y a toujours autant de composantes que de variables originales – que nous choisissions ou non de conserver toutes les composantes est une autre question, mais SPSS les calcule toutes. La première composante a une variance de 8.111, tandis que la seconde a une variance de 0.069. La première composante explique une proportion de 8.111/(8.111+0.069)=8.111/8.18=0.99168.111/(8.111+0.069)=8.111/8.18=0.9916. La seconde composante explique une proportion de 0.069/8.18=0.8400.069/8.18=0.840. Le % cumulé atteint 100 %, comme attendu. Les sommes des carrés des charges d’extraction montrent que seule la première composante a été « extraite », car nous avons demandé que seules les composantes avec des valeurs propres supérieures à la moyenne soient extraites (la moyenne des valeurs propres ici est (8.111+0.069)/2=4.09(8.111+0.069)/2=4.09). Cependant, même si nous avions extrait plus d’une composante, les valeurs propres seraient restées les mêmes pour les deux composantes (comme nous le démontrerons plus tard). Comme nous le verrons dans l’analyse factorielle, ce n’est généralement pas le cas. Dans l’analyse factorielle, les valeurs propres changent généralement en fonction du nombre de facteurs extraits. C’est une différence importante entre l’ACP et l’analyse factorielle, et c’est pourquoi il est essentiel de ne pas les considérer comme la même procédure. Ensuite, SPSS nous fournit la matrice des composantes pour la seule composante extraite (encore une fois, concentrons-nous sur les composantes brutes). Si nous additionnons les carrés de ces charges, nous devrions obtenir la valeur propre de 8.11 (attention : ces charges peuvent varier selon le logiciel utilisé – elles sont parfois mises à l’échelle différemment, et leurs carrés peuvent ne pas correspondre exactement à la valeur propre – cela est dû aux différentes contraintes imposées sur leur somme) : (2.500)2+(−1.364)2=6.25+1.860496=8.110496(2.500)2+(−1.364)2=6.25+1.860496=8.110496 Nous pouvons également confirmer que même si nous avons transformé les données en nouvelles composantes, la variance originale des variables reste la même. L’ACP ne « crée » pas de nouvelles variables ; elle transforme simplement les variables d’entrée en nouvelles composantes. Cela est démontré par le fait que la somme des valeurs propres (8.18) est égale à la somme des variances des variables originales. Rappelons que les variances originales étaient de 6.266 et 1.913, pour une somme de 8.18. Si nous avions extrait (ou simplement choisi de conserver) deux composantes, notre matrice des composantes aurait été : Nous notons que la somme des carrés des charges de la seconde composante correspond à sa valeur propre respective (rappelons que la valeur propre dans le tableau Variance totale expliquée était de 0.069 pour la seconde composante) :(0.126)2+(0.230)2=0.015876+0.0529=0.068776(0.126)2+(0.230)2=0.015876+0.0529=0.068776 Les charges (ou « coefficients ») pour chaque composante sont en fait des éléments d’un vecteur propre (ce sont des éléments mis à l’échelle, mais l’essentiel est qu’ils sont dérivés des vecteurs propres). Chaque valeur propre est associée à un vecteur propre correspondant qui constitue la composante donnée. Les vecteurs propres sont calculés pour être orthogonaux, ce qui signifie ici que les composantes sont « non corrélées » (bien que l’orthogonalité et l’absence de corrélation soient deux concepts différents, il n’est pas incorrect ici d’assimiler l’absence de corrélation à l’orthogonalité des composantes, ou plus précisément, de leurs vecteurs propres). Si nous avions eu des données pour extraire une troisième composante, elle aurait été indépendante des deux premières. L’ACP extrait toujours des composantes orthogonales (non corrélées) les unes par rapport aux autres, quel que soit le nombre que nous choisissons de conserver.

Données de Pearson en 1901 dans IBM SPSS Lire la suite »