SPSS

Données

Analyse

Graphiques

Utilitaires

Transformation

Extensiosn

Moyo Nya

ACP d’une Matrice de Corrélation dans IBM SPSS

Nous démontrons maintenant une ACP sur une matrice de corrélation au lieu d’une matrice de covariance : Le choix d’analyser l’une plutôt que l’autre peut générer des résultats très différents. Les valeurs propres et les vecteurs propres ne sont pas censés rester les mêmes entre les deux matrices. Si les variables ont des variances très différentes, les chercheurs choisiront souvent d’analyser la matrice de corrélation plutôt que la matrice de covariance. Dans la plupart des cas, vous ne pouvez généralement pas vous tromper en analysant la matrice de corrélation. Donc, comme règle empirique (si nous devions absolument en donner une), c’est l’approche que vous devriez probablement choisir la plupart du temps en l’absence d’autres informations. Considérons la matrice de corrélation suivante sur huit variables différentes tirées de Denis (2016). Chaque variable représente un test psychométrique différent, T1 à T8. La matrice de corrélation représente toutes les corrélations bivariées de Pearson entre les tests. Seule la moitié inférieure de la matrice est affichée, car la moitié supérieure sera un miroir de la partie inférieure. Le long de la diagonale principale de la matrice se trouvent des valeurs de 1, indiquant simplement que les variables sont parfaitement corrélées avec elles-mêmes : 1.00000 .343 1 .00000 .505 .203 1.00000 .308 .400 .398 1.00000 .693 .187 .303 .205 1.00000 .208 .108 .277 .487 .200 1.00000 .400 .386 .286 .385 .311 .432 1.00000 .455 .385 .167 .465 .485 .310 .365 1.00000 Le travail de l’ACP consiste à analyser cette matrice pour voir si, au lieu de huit dimensions (T1 à T8), les données peuvent être exprimées en moins de dimensions, les composantes principales. Nous commençons par entrer la matrice de corrélation dans la fenêtre de syntaxe de SPSS (ci-dessous). Notez qu’en plus de la matrice elle-même, nous avons également spécifié des lignes MATRIX DATA et BEGIN DATA, ainsi que END DATA à la fin de la matrice. Nous avons également spécifié le nombre de cas par variable, égal à 1000. Enfin, avant chaque ligne de la matrice, nous avons inclus CORR : Rappelons que pour cette analyse, il n’y a pas de données dans la vue « Data View » de SPSS. Toutes les données sont contenues dans la matrice de corrélation entrée dans la fenêtre de syntaxe. Pour apprendre les commandes GUI correspondantes. Les commandes de syntaxe requises sont les suivantes (ajoutez la syntaxe suivante immédiatement après la commande END DATA) : Copy Download FACTOR MATRIX = IN (CORR=*) /PRINT = INITIAL EXTRACTION /CRITERIA FACTORS (8) /EXTRACTION = PC /METHOD = CORRELATION. La première ligne FACTOR MATRIX = IN (CORR=*) spécifie que la matrice de corrélation est entrée en entrée. La deuxième ligne /PRINT = INITIAL EXTRACTION demande à SPSS d’afficher les communautés initiales et d’extraction, dont nous discuterons la signification dans la sortie qui suit. La troisième ligne /CRITERIA FACTORS (8) demande d’extraire huit composantes. Notez que pour cet exemple, nous extrayons autant de composantes qu’il y a de variables. L’instruction /EXTRACTION = PC demande à SPSS d’extraire une solution de composantes principales. Lorsque nous ferons une analyse factorielle plus tard, nous ajouterons une extension différente à cette commande au lieu de PC. Enfin, l’instruction /METHOD = CORRELATION demande d’analyser la matrice de corrélation. Nous ne montrons qu’une partie de la sortie ci-dessous. Pour plus de détails, où nous effectuons une analyse factorielle sur les mêmes données au lieu d’une ACP, consultez le chapitre suivant. Pour l’instant, nous interprétons brièvement l’analyse ACP sur ces données : [Espace pour le tableau « Total Variance Explained »] Comme huit variables ont été entrées dans l’analyse, huit composantes seront générées, chacune associée à une valeur propre donnée. Autrement dit, la première composante est associée à une valeur propre de 3,447, la deuxième à une valeur propre de 1,157, et ainsi de suite. Notez que les valeurs propres diminuent à mesure que le nombre de composantes augmente. C’est normal, car nous espérons que les premières composantes expliquent la majorité de la variance des variables. Quel pourcentage de variance la première composante explique-t-elle ? Nous pouvons le calculer simplement en prenant le ratio de 3,447 sur le nombre total de composantes (8) : 3,447/8=0,430883,447/8=0,43088 Notez que le nombre 0,43088 correspond au % de Variance pour la première composante. De même, la deuxième composante explique 1,157/8=14,465%1,157/8=14,465% de la variance. Le % cumulé des deux premières composantes est de 57,554, calculé en additionnant 43,088 + 14,465. Que représentent les « Extraction Sums of Squared Loadings » ? Ceux-ci seront plus pertinents lorsque nous considérerons l’analyse factorielle. Mais pour l’instant, nous notons, comme nous l’avons fait plus tôt, qu’ils sont identiques aux valeurs propres initiales. Rappelons que c’est une caractéristique de l’ACP que, que nous extrayions 1 composante ou 8, ou n’importe quel nombre entre les deux, les sommes des carrés des charges extraites ne changeront pas pour la composante donnée. Par exemple, supposons que nous ayons demandé d’extraire une seule composante au lieu des 8 que nous avons extraites initialement : [Espace pour l’image de la syntaxe modifiée et du tableau correspondant] Notez qu’avec une seule composante extraite, la valeur propre de la composante correspond à celle de la valeur propre initiale. Cela n’est vrai que parce que nous effectuons une ACP. Lorsque nous ferons une analyse factorielle dans le chapitre suivant, nous verrons que, selon le nombre de facteurs que nous extrayons, les valeurs propres changeront généralement. Encore une fois, c’est une différence fondamentale entre l’analyse en composantes principales et l’analyse factorielle, une différence qui est au cœur de nombreuses critiques adressées à l’analyse factorielle, la critique étant que la variance expliquée par un facteur donné dépend souvent du nombre d’autres facteurs extraits avec lui. L’ACP, cependant, n’est pas « indécise » comme cela. Revenons à notre solution à huit composantes. SPSS nous affiche la « Component Matrix » : [Espace pour le tableau « Component Matrix »] La « Component Matrix » révèle les charges des variables sur la composante donnée. Dans le langage de l’ACP, nous disons que des variables comme T1 « chargent » plutôt fortement sur la composante 1 (0,766). Nous remarquons également que la plupart des autres variables chargent plutôt fortement sur la composante 1 également. Comme beaucoup de ce qui est présenté ici est similaire à l’analyse factorielle,

ACP d’une Matrice de Corrélation dans IBM SPSS Lire la suite »

Scores des Composantes dans IBM SPSS

Pour obtenir les scores des composantes sur chaque composante principale, nous pouvons d’abord utiliser la fonction automatique de SPSS pour calculer les scores factoriels. Sous Scores, cochez Enregistrer comme variables, puis sélectionnez l’approche Régression pour estimer les scores factoriels : Nous pouvons voir que SPSS a généré deux colonnes de scores factoriels. Ce ne sont pas encore tout à fait des scores de composantes, mais nous pouvons les obtenir à partir des scores factoriels. Pour obtenir les véritables scores des composantes, nous devons multiplier les scores factoriels par la racine carrée de la valeur propre de chaque composante : Nous pouvons vérifier qu’il s’agit bien des composantes. Elles auront une moyenne de zéro et des variances égales aux valeurs propres correspondantes de 8.111 et 0.069. Lorsque nous exécutons des statistiques descriptives sur les deux composantes (Comp_1 et Comp_2), nous obtenons : Nous remarquons qu’en mettant au carré les écarts-types correspondants (2.84798 et 0.26268), nous obtenons les variances (valeurs propres) des composantes (8.111 et 0.069, respectivement). Vous pouvez obtenir les variances directement en utilisant VARIANCE au lieu de STDDEV. En corrélant les scores des composantes, nous vérifions qu’ils ne sont pas corrélés et que leur nuage de points reflète celui des scores factoriels obtenus en termes de distribution :

Scores des Composantes dans IBM SPSS Lire la suite »

Données de Pearson en 1901 dans IBM SPSS

Données de Pearson en 1901 Avant de réaliser une ACP sur une matrice contenant plusieurs variables (comme c’est généralement le cas), nous illustrons la technique à l’aide d’un exemple très simple basé sur des données génériques issues de l’utilisation innovante de la procédure par Karl Pearson en 1901. Cette approche permet de comprendre ce que fait l’analyse en composantes sans trop s’immerger dans la signification des variables.  Considérons des données sur deux variables, X et Y : Pour réaliser l’ACP dans SPSS : ANALYSER → RÉDUCTION DE DIMENSION → ANALYSE FACTORIELLE. Nous déplaçons les deux variables X et Y dans la boîte Variables, puis sélectionnons Extraction. Sous Méthode, choisissez Composantes principales (ce sera l’option par défaut), puis cochez Matrice de covariance et Graphique des valeurs propres. Sous Extraire, cochez Basé sur les valeurs propres supérieures à 1 fois la valeur propre moyenne. Assurez-vous que Solution factorielle non-rotée est sélectionnée  SPSS affiche d’abord ce qu’on appelle les communautés : Nous discuterons de ces résultats plus en détail lors de l’analyse factorielle dans le chapitre suivant. Pour l’instant, sachez que puisque nous analysons la matrice de covariance, les communautés initiales correspondent aux variances des variables soumises à l’ACP. La variance de la variable X est égale à 6.266, tandis que celle de la variable Y est égale à 1.913. Nous reviendrons sur les communautés d’extraction dans l’analyse factorielle. D’un point de vue pratique, pour l’ACP, vous n’aurez généralement pas à accorder beaucoup d’attention à ces communautés (contrairement à l’analyse factorielle), donc nous passons directement à l’examen de la solution de l’ACP. SPSS recalcule également les communautés en partant de valeurs initiales de 1.0 pour chaque variable. Ensuite, SPSS présente les principaux résultats de l’ACP : Dans le tableau Variance totale expliquée, nous voyons les principaux résultats de l’ACP. Nous nous concentrons uniquement sur les composantes brutes. Nous notons les éléments suivants : Les valeurs propres initiales de 8.111 et 0.069 représentent les variances des composantes. Comme il y a deux variables soumises à l’ACP, SPSS calcule deux valeurs propres initiales. Il y a toujours autant de composantes que de variables originales – que nous choisissions ou non de conserver toutes les composantes est une autre question, mais SPSS les calcule toutes. La première composante a une variance de 8.111, tandis que la seconde a une variance de 0.069. La première composante explique une proportion de 8.111/(8.111+0.069)=8.111/8.18=0.99168.111/(8.111+0.069)=8.111/8.18=0.9916. La seconde composante explique une proportion de 0.069/8.18=0.8400.069/8.18=0.840. Le % cumulé atteint 100 %, comme attendu. Les sommes des carrés des charges d’extraction montrent que seule la première composante a été « extraite », car nous avons demandé que seules les composantes avec des valeurs propres supérieures à la moyenne soient extraites (la moyenne des valeurs propres ici est (8.111+0.069)/2=4.09(8.111+0.069)/2=4.09). Cependant, même si nous avions extrait plus d’une composante, les valeurs propres seraient restées les mêmes pour les deux composantes (comme nous le démontrerons plus tard). Comme nous le verrons dans l’analyse factorielle, ce n’est généralement pas le cas. Dans l’analyse factorielle, les valeurs propres changent généralement en fonction du nombre de facteurs extraits. C’est une différence importante entre l’ACP et l’analyse factorielle, et c’est pourquoi il est essentiel de ne pas les considérer comme la même procédure. Ensuite, SPSS nous fournit la matrice des composantes pour la seule composante extraite (encore une fois, concentrons-nous sur les composantes brutes). Si nous additionnons les carrés de ces charges, nous devrions obtenir la valeur propre de 8.11 (attention : ces charges peuvent varier selon le logiciel utilisé – elles sont parfois mises à l’échelle différemment, et leurs carrés peuvent ne pas correspondre exactement à la valeur propre – cela est dû aux différentes contraintes imposées sur leur somme) : (2.500)2+(−1.364)2=6.25+1.860496=8.110496(2.500)2+(−1.364)2=6.25+1.860496=8.110496 Nous pouvons également confirmer que même si nous avons transformé les données en nouvelles composantes, la variance originale des variables reste la même. L’ACP ne « crée » pas de nouvelles variables ; elle transforme simplement les variables d’entrée en nouvelles composantes. Cela est démontré par le fait que la somme des valeurs propres (8.18) est égale à la somme des variances des variables originales. Rappelons que les variances originales étaient de 6.266 et 1.913, pour une somme de 8.18. Si nous avions extrait (ou simplement choisi de conserver) deux composantes, notre matrice des composantes aurait été : Nous notons que la somme des carrés des charges de la seconde composante correspond à sa valeur propre respective (rappelons que la valeur propre dans le tableau Variance totale expliquée était de 0.069 pour la seconde composante) :(0.126)2+(0.230)2=0.015876+0.0529=0.068776(0.126)2+(0.230)2=0.015876+0.0529=0.068776 Les charges (ou « coefficients ») pour chaque composante sont en fait des éléments d’un vecteur propre (ce sont des éléments mis à l’échelle, mais l’essentiel est qu’ils sont dérivés des vecteurs propres). Chaque valeur propre est associée à un vecteur propre correspondant qui constitue la composante donnée. Les vecteurs propres sont calculés pour être orthogonaux, ce qui signifie ici que les composantes sont « non corrélées » (bien que l’orthogonalité et l’absence de corrélation soient deux concepts différents, il n’est pas incorrect ici d’assimiler l’absence de corrélation à l’orthogonalité des composantes, ou plus précisément, de leurs vecteurs propres). Si nous avions eu des données pour extraire une troisième composante, elle aurait été indépendante des deux premières. L’ACP extrait toujours des composantes orthogonales (non corrélées) les unes par rapport aux autres, quel que soit le nombre que nous choisissons de conserver.

Données de Pearson en 1901 dans IBM SPSS Lire la suite »

Analyse de Puissance pour la MANOVA dans IBM SPSS

Nous illustrons ici l’estimation de la taille d’échantillon pour une MANOVA à l’aide de G*Power : TESTS → MOYENNES → Multivarié : MANOVA : Effets globaux Nous définissons notre taille d’effet à f2=0,25, notre niveau de significativité à 0,05 et une puissance souhaitée de 0,95. Supposons que nous ayons trois groupes pour la variable indépendante et quatre variables de réponse. Dans ces conditions, la taille d’échantillon totale estimée est de 51 observations, ce qui signifie que nous avons besoin de 17 sujets par groupe. Une courbe de puissance apparaît à droite pour les paramètres mentionnés ci-dessus. Sélectionnez X–Y plot pour une plage de valeurs, puis cliquez sur Draw plot. Nous pouvons observer sur le graphique que lorsque la taille d’échantillon totale (sur l’axe des y) augmente, la puissance augmente également. Notez que la relation n’est pas exactement linéaire : pour des augmentations de puissance à des niveaux élevés (par exemple, 0,85 et plus), les exigences de taille d’échantillon total augmentent de manière significative par rapport aux différences de puissance à des niveaux plus bas.

Analyse de Puissance pour la MANOVA dans IBM SPSS Lire la suite »

Visualisation des résultats dans IBM SPSS

SPSS propose quelques graphiques utiles pour visualiser la séparation des groupes. L’un est simplement un graphique des scores discriminants et des centroïdes à travers les dimensions canoniques (nous avons produit ce graphique plus tôt), tandis que l’autre est ce qu’on appelle un graphique territorial. Ce sont des graphiques similaires mais qui nous donnent des informations légèrement différentes. Examinons le nuage de points des scores discriminants et plaçons-le côte à côte avec le graphique territorial. Nous avons dû entourer manuellement les centroïdes dans le graphique territorial car ils sont difficiles à voir avec les symboles « * » de SPSS parmi les signes « + ». Voici la différence entre les deux graphiques. Le graphique de gauche nous donne une idée de la séparation des groupes accomplie par chaque fonction. Remarquez que sur l’axe des x (fonction 1), il semble y avoir une bonne séparation entre T=1 vs T=2 et 3. Par conséquent, nous pouvons conclure que la fonction 1 semble faire un assez bon travail pour discriminer entre T=1 vs T=2 et 3. Maintenant, regardez le graphique du point de vue de la fonction 2 (tracez une ligne horizontale à 0,0 pour aider à la visualisation ; cela aide à voir la séparation ou son absence). Notez que la fonction 2 ne semble pas bien discriminer entre les groupes. Ils semblent tous alignés à environ 0,0, et il n’y a pas de séparation claire à aucun point le long de l’axe. Sans surprise, la fonction 2, comme vous pouvez vous en souvenir, avait une très petite valeur propre, tandis que la fonction 1 en avait une très grande. Cela correspond à ce que nous voyons dans le nuage de points. La fonction 1 faisait tout le travail. Passons maintenant à la carte territoriale. La carte territoriale nous donne une idée de où les cas devraient être classés étant donné un score conjoint sur les deux dimensions 1 et 2 et les limites de cette classification (c’est-à-dire les limites des scores de coupure). Par exemple, remarquez que la ligne presque verticale a une limite de 1 sur le côté gauche et de nombreux 2 sur la droite. Cela signifie que les cas marqués à gauche de cette limite devraient être classés dans T=1T=1, tandis que les cas marqués à droite devraient être classés dans T=2T=2, jusqu’à un certain point, où nous avons une autre limite créée par T=3T=3. La carte territoriale nous montre donc le « territoire » d’appartenance de chaque groupe selon les fonctions discriminantes obtenues. Un dernier point concernant les coefficients des fonctions discriminantes – parfois les chercheurs font tourner les coefficients dans un esprit similaire à ce qu’on ferait dans une analyse factorielle (comme nous le verrons bientôt) pour donner un meilleur sens substantiel aux fonctions. Cependant, aussi faciles à interpréter qu’ils puissent être après rotation, comme le notent Rencher et Christensen (2012, p. 301), la rotation peut compromettre les propriétés des fonctions. Par conséquent, au lieu de faire tourner les fonctions, l’interprétation des coefficients standardisés (comme nous les avons calculés précédemment) est souvent considérée comme une meilleure stratégie par ces auteurs.

Visualisation des résultats dans IBM SPSS Lire la suite »

Statistiques de Classification dans IBM SPSS

Quelle a été la performance de nos fonctions discriminantes pour la classification ? Pour cela, nous pouvons demander à SPSS de nous fournir les résultats de classification. Les statistiques par cas accompagnées des résultats de classification nous donnent toutes les informations nécessaires pour savoir si l’analyse discriminante a réussi ou non à classer les observations : Colonne 1 : contient le numéro de cas pour chaque observation. Nous avons un total de 9 observations. Colonne 2 : correspond au groupe réel auquel appartiennent les participants. Ce sont les groupes que nous avons saisis dans notre ensemble de données (il ne s’agit pas de valeurs de groupe prédites, mais bien de valeurs réelles d’appartenance). Colonne 3 : correspond au groupe prédit selon l’analyse discriminante. Comment les fonctions s’en sont-elles sorties ? Remarquez qu’elles ont correctement classé tous les cas sauf le cas n°7. Le cas 7 a été prédit dans le groupe 2 alors qu’en réalité il appartient au groupe 3. Il s’agit de la seule erreur de classification commise par la procédure. La distance de Mahalanobis au centroïde (au carré) représente une mesure de distance multivariée ainsi que la probabilité associée d’être classé dans le groupe donné. Remarquez que les deux colonnes de P(G = g|D = d) pour chaque cas (entre le groupe le plus probable et le deuxième plus probable) s’additionnent à 1,0. Si la distance par rapport au centroïde est très faible, la probabilité d’appartenir à ce groupe est élevée. Nous pouvons constater, pour les trois premiers cas, que la probabilité d’être classé dans le groupe donné en fonction de la distance est extrêmement élevée pour le groupe principal (1,000 ; 1,000 ; 1,000), et très faible pour le second groupe (0,000 ; 0,000 ; 0,000). Autrement dit, les cas 1 à 3 étaient des cas certains pour être classés dans le groupe 1 (le graphique des centroïdes que nous avons examiné précédemment le confirme facilement, puisque le groupe 1 est bien séparé des deux autres groupes). En examinant les autres cas, on remarque que si la distance entre le groupe le plus probable et le second est grande, alors la probabilité d’être classé dans ce groupe est plus faible que si la distance est faible. Les deux dernières colonnes sont les scores discriminants pour chaque fonction. Cette sortie du programme réplique les scores que nous avons déjà interprétés (et calculés pour quelques cas). Bien que ces informations soient déjà contenues dans les statistiques par cas ci-dessus, SPSS fournit également un résumé des résultats de classification basé sur l’utilisation des fonctions discriminantes pour classer correctement les observations dans des groupes : Le mode de lecture du tableau consiste à lire chaque ligne : Pour les cas appartenant au groupe T = 1, le modèle a prédit que les 3 seraient dans le groupe T = 1. Pour les cas du groupe T = 2, le modèle a prédit que les 3 seraient dans le groupe T = 2. Pour les cas du groupe T = 3, le modèle a prédit que 2 seraient dans le groupe T = 3, mais un serait dans le groupe T = 2. Rappelons que d’après les statistiques par cas, c’est la seule erreur de prédiction. Les pourcentages en dessous des résultats de classification indiquent que : Pour les cas du groupe T = 1, le modèle prédit avec une précision de 100 %. Pour le groupe T = 2, également 100 %. Pour le groupe T = 3, une précision de 66,7 %. Le nombre de cas correctement classés est de 8 sur 9 cas possibles. C’est ce que révèle la note en bas du tableau : 8/9 soit 88,9 % des cas originaux ont été classés correctement. SPSS fournit toujours les résultats de classification, que l’on peut prendre tels quels, mais si vous souhaitez en savoir plus sur le fonctionnement interne de l’analyse discriminante, notamment pour les problèmes à deux groupes ou multi-groupes avec scores de coupure ou coefficients de classification, voir Hair et al. (2006), qui offrent une explication détaillée de ce que fait le programme « en arrière-plan », surtout dans les cas de nombres inégaux par groupe et/ou probabilités a priori inégales (dans notre exemple, nous avions des N égaux et des probabilités a priori égales).

Statistiques de Classification dans IBM SPSS Lire la suite »

MANOVA et Analyse Discriminante sur Trois Populations dans IBM SPSS

Nous considérons un exemple de MANOVA et d’analyse discriminante sur trois populations. Dans cet exemple, nous allons un peu au-delà des bases de ces procédures et présentons une variété de résultats fournis par SPSS, y compris une variété de coefficients générés par les fonctions discriminantes. Considérons une version des données de formation avec une variable de regroupement en trois catégories (1 = pas de formation, 2 = formation partielle, et 3 = formation approfondie) : Entrées dans SPSS, nous obtenons : Nous souhaitons d’abord exécuter la MANOVA sur la déclaration de fonction suivante : Quantitatif + Verbal en fonction de la Formation Tous les tests de signification multivariés suggèrent de rejeter l’hypothèse nulle multivariée (p < 0,05). Nous pouvons obtenir les valeurs propres pour notre MANOVA à l’aide de la syntaxe suivante : La somme totale des valeurs propres est 14,35158 + 0,16124 = 14,51282. La première fonction discriminante est très importante, car 14,35158/14,51282 = 0,989. La deuxième fonction discriminante est beaucoup moins importante, car 0,16124/14,51282 = 0,01. Lorsque nous élevons au carré la corrélation canonique de 0,96688 pour la première fonction, nous obtenons 0,935, ce qui signifie qu’environ 93 % de la variance est expliquée par cette première fonction. Lorsque nous élevons au carré la corrélation canonique de 0,37263, nous obtenons 0,139, ce qui signifie qu’environ 14 % de la variance est expliquée par cette deuxième fonction discriminante. Rappelons que nous aurions pu également obtenir ces corrélations canoniques au carré par 14,35158/(1 + 14,35158) = 0,935 et 0,16124/(1 + 0,16124) = 0,139. Nous obtenons maintenant l’analyse discriminante correspondante sur ces données et comparons les valeurs propres avec celles de la MANOVA, ainsi que des résultats plus informatifs – ANALYSER → CLASSIFIER → ANALYSE DISCRIMINANTE  Nous pouvons voir que les valeurs propres et les corrélations canoniques pour chaque fonction discriminante correspondent à celles obtenues via la MANOVA dans SPSS. Nous voyons également que le Lambda de Wilks pour les fonctions 1 à 2 est statistiquement significatif (p = 0,003). La deuxième fonction discriminante n’est pas statistiquement significative (p = 0,365). SPSS nous fournit également les coefficients non standardisés des fonctions discriminantes (à gauche), ainsi que la constante pour le calcul des scores discriminants. À droite se trouvent les coefficients standardisés (généralement recommandés pour interpréter l’ »importance » relative des variables composant la fonction). Nous interprétons ces coefficients plus en détail : Coefficients non standardisés – analogues aux poids de régression partielle bruts en régression. La valeur constante de -6,422 est l’intercept pour le calcul des scores discriminants. Pour la fonction 1, le calcul est : Y=−6,422+0,030(Q)+0,979(V). Pour la fonction 2 : Y=−2,360+0,832(Q)−0,590(V). Coefficients standardisés – analogues aux coefficients Beta standardisés en régression multiple. Ils peuvent être utilisés comme mesure de l’importance de chaque variable dans la fonction discriminante. Nous voyons que pour la fonction 1, « Verbal » contribue fortement. Matrice de structure – corrélations bivariées entre les variables et la fonction discriminante. Rencher (1998) met en garde contre une interprétation trop basée sur ces coefficients, car ils représentent une contribution univariée plutôt que multivariée. Interpréter les coefficients standardisés est souvent préférable, mais examiner les deux types de coefficients peut être informatif pour « trianguler » la nature des dimensions extraites. Nous pouvons voir qu’à travers tous les coefficients, « Verbal » est plus pertinent pour la fonction 1, tandis que « Quantitatif » est plus pertinent pour la fonction 2. Nous ne montrons pas le test de Box’s M pour ces données car nous l’avons déjà démontré auparavant. Essayez-le vous-même et vous constaterez qu’il n’est pas statistiquement significatif (p = 0,532), ce qui signifie que nous n’avons aucune raison de douter de l’hypothèse d’égalité des matrices de covariance. Deux fonctions discriminantes ont été extraites, la première affichant une mesure d’association élevée (corrélation canonique au carré de 0,935), qui s’est avérée statistiquement significative (Lambda de Wilks = 0,056, p = 0,003). Les coefficients des fonctions discriminantes canoniques et leurs homologues standardisés ont tous deux suggéré que « Verbal » était plus pertinent pour la fonction 1 et « Quantitatif » pour la fonction 2. Les coefficients de structure ont également attribué un schéma d’importance similaire. Les scores discriminants ont été obtenus et tracés, révélant que la fonction 1 fournissait une bonne discrimination entre les groupes 1 vs. 2 et 3, tandis que la deuxième fonction fournissait un pouvoir discriminant minimal. Comment chaque colonne a-t-elle été calculée ? Elles ont été calculées à l’aide des coefficients non standardisés. Calculons quelques scores pour la première et la deuxième fonction : Fonction 1, cas 1 : −6,422+5(0,030)+2(0,979)=−6,422+0,15+1,958=−4,314−6,422+5(0,030)+2(0,979)=−6,422+0,15+1,958=−4,314 Fonction 1, cas 2 : −6,422+2(0,030)+1(0,979)=−6,422+0,06+0,979=−5,383−6,422+2(0,030)+1(0,979)=−6,422+0,06+0,979=−5,383 Fonction 2, cas 1 : −2,360+5(0,832)+2(−0,590)=−2,360+4,16−1,18=0,617−2,360+5(0,832)+2(−0,590)=−2,360+4,16−1,18=0,617 Fonction 2, cas 2 : −2,360+2(0,832)+1(−0,590)=−2,360+1,664−0,590=−1,287−2,360+2(0,832)+1(−0,590)=−2,360+1,664−0,590=−1,287 Nous pouvons voir que nos calculs correspondent à ceux générés par SPSS pour les deux premiers cas de chaque fonction. SPSS nous fournit également les centroïdes des groupes (moyennes) : Pour apprécier ces valeurs, considérons le graphique généré par SPSS : Fonction 1 : Moyenne des scores pour T=1 : −4,334 (confirmé par −4,31397,−5,38294,−3,30467). Moyenne pour T=2 : 1,652 (confirmé par 0,70270,2,63180,1,62250). Moyenne pour T=3: 2,682 (confirmé par 1,68217,3,67094,2,69147. Fonction 2 : T=1 : [0,61733+(−1,28702)+0,85864]/3=0,063. T=2: [0,99239+(−1,01952)+(−1,26084)]/3=−0,429. T=3: [0,40219+0,05331+0,64351]/3=0,366. Nous pouvons obtenir plus de détails sur les valeurs réelles dans le graphique en demandant à SPSS d’étiqueter chaque point (double-cliquez sur les points du graphique pour afficher les étiquettes). Remarquez que SPSS étiquette les valeurs des données dans le graphique selon leur valeur sur la fonction 2 (axe y). En rappelant les scores discriminants pour la fonction 2, nous pouvons facilement les faire correspondre.

MANOVA et Analyse Discriminante sur Trois Populations dans IBM SPSS Lire la suite »

Hypothèse d’Égalité des Matrices de Covariance dans IBM SPSS

Dans le cadre de l’ANOVA univariée, une des hypothèses à vérifier était l’égalité des variances des populations. Par exemple, pour une variable indépendante à trois groupes, nous devions supposer que la variance était la même à chaque niveau du facteur de regroupement. Dans la MANOVA (et donc aussi dans l’analyse discriminante), nous devons non seulement faire cette hypothèse, mais aussi supposer que les covariances entre les variables dépendantes sont identiques dans chaque population. Une matrice qui contient des variances et des covariances est appelée matrice de variance-covariance ou simplement matrice de covariance. Pour notre problème à cinq groupes (que ce soit via MANOVA ou analyse discriminante), nous devons évaluer l’hypothèse : ​ où ∑1à ∑5​ correspondent aux matrices de covariance de chaque population. Pour tester cette hypothèse, nous utilisons à nouveau le test de Box’s M fourni par SPSS. Pour obtenir ce test via l’analyse discriminante : ANALYSER → CLASSIFIER→ ANALYSE DISCRIMINANTE , puis sélectionnez Statistics et cochez Box’s M sous Descriptives : Rappelons que l’hypothèse nulle est que toutes les matrices de covariance sont égales ; par conséquent, nous souhaitons ne pas rejeter cette hypothèse. Autrement dit, nous cherchons une valeur pp (Sig.) non significative pour le test de Box’s M. La valeur pp ici est égale à 0.250, ce qui est bien supérieur au seuil conventionnel de 0.05. Nous ne rejetons donc pas l’hypothèse nulle et pouvons considérer que les matrices de covariance sont approximativement égales (ou du moins pas suffisamment inégales pour poser problème à l’analyse discriminante).

Hypothèse d’Égalité des Matrices de Covariance dans IBM SPSS Lire la suite »

Analyse Discriminante Linéaire dans IBM SPSS

Que nous a révélé notre MANOVA ? Notre MANOVA nous a essentiellement indiqué que sur la combinaison linéaire de mb + bh + bl + nh, nous avons des preuves suggérant des différences de moyennes dans la population. Mais rappelons ce qu’est une combinaison linéaire dans le contexte de la MANOVA. Il ne s’agit pas simplement de sommer mb à nh. Une combinaison linéaire est une pondération de ces variables. La MANOVA nous a montré qu’il y avait des différences de moyennes sur une combinaison linéaire optimisée de mb + bh + bl + nh, mais elle ne nous a pas révélé à quoi ressemblait cette pondération. C’est là qu’intervient l’analyse discriminante. L’analyse discriminante va nous dévoiler la ou les combinaisons linéaires optimisées qui ont généré les différences de moyennes dans notre MANOVA. Si nous appelons « w » les poids de notre combinaison linéaire, alors nous avons : Combinaison linéaire = w1(mb) + w2(bh) + w3(bl) + w4(nh) L’analyse discriminante va nous indiquer quelles sont réellement les valeurs des poids w1, w2, w3 et w4, afin que nous puissions mieux comprendre la nature de cette ou ces fonctions qui discriminent si bien entre les groupes d’époques (et génèrent équivalemment des différences de moyennes). Nous soulignerons les similitudes entre MANOVA et DISCRIM au fur et à mesure. Pour réaliser une analyse discriminante dans SPSS : ANALYSER → CLASSiFIER → ANALYSE DISCRIMINANTE Nous déplaçons epoch_cat dans la boîte Grouping Variable et mb, bh, bl et nh dans la boîte des indépendantes. SPSS nous demandera de définir la plage de la variable de regroupement. Le minimum est ~4000 et le maximum est 150, mais SPSS n’acceptera pas un nombre minimum aussi bas. Une solution simple est de recoder la variable en nombres de 1 à 5 (ci-dessous). Nous appelons notre variable recodée epoch_cat, ayant maintenant des niveaux de 1 à 5. Enfin, avant d’exécuter la procédure, nous nous assurons également que Entrer les variables simultanément est sélectionné. Résumé des Fonctions Discriminantes Canoniques Quatre fonctions discriminantes ont été extraites de la procédure d’analyse discriminante. La première fonction a donné une valeur propre de 0,425 et, parmi les quatre fonctions, elle a représenté 88,2 % des valeurs propres extraites* (voir l’interprétation ci-dessous, points 2 à 5). La première fonction était très importante, donnant une corrélation canonique au carré de 29,81 % (c’est-à-dire 0,546 × 0,546), tandis que les fonctions restantes étaient beaucoup moins pertinentes. Seule la première fonction était statistiquement significative (Wilks = 0,664, p = 0,000). Ci-dessus, SPSS rapporte des résultats utiles pour interpréter l’analyse discriminante : SPSS a produit quatre fonctions discriminantes. Ces fonctions sont numérotées de 1 à 4 dans la première colonne du Résumé des Fonctions Discriminantes Canoniques. (Le Lambda de Wilks dans le tableau accompagnant indique que seule la fonction 1 est statistiquement significative.) La deuxième colonne contient les valeurs propres. Les valeurs propres ont des interprétations légèrement différentes selon qu’elles sont obtenues dans une analyse discriminante ou une analyse en composantes principales (par exemple, la valeur propre n’est pas une variance dans l’analyse discriminante, bien qu’elle le soit dans l’analyse en composantes principales (Rencher et Christensen 2012)). Pour DISCRIM, la valeur propre nous fournit une mesure de « l’importance » de la fonction discriminante, où des valeurs propres plus grandes indiquent une plus grande importance que des valeurs plus petites. Nous pouvons voir que la fonction 1 est la plus importante en termes de capacité discriminante, car elle est plus grande que les valeurs propres des fonctions 2 à 4. En utilisant les valeurs propres, nous pouvons calculer les nombres dans la colonne 3, % de Variance, en prenant la valeur propre respective et en la divisant par la somme des valeurs propres. Pour la première fonction, la « proportion de variance » expliquée est 0,425/(0,425 + 0,039 + 0,016 + 0,002) = 0,882. C’est-à-dire que la première fonction discriminante représente 88,2 % de la variance de celles extraites. Il convient de noter que l’utilisation des valeurs propres de manière « proportion de variance expliquée » est, à strictement parler, quelque peu inexacte, car comme mentionné, les valeurs propres dans l’analyse discriminante ne sont pas de véritables « variances » (elles le sont dans l’analyse en composantes principales, mais pas dans l’analyse discriminante). Cependant, pragmatiquement, le langage « proportion de variance » est souvent utilisé lors de l’interprétation des fonctions discriminantes (même SPSS le fait en intitulant la colonne 3 par « % de Variance »). Voir Rencher et Christensen (2012) pour une explication plus approfondie des subtilités sur ce point. La règle générale est que lors de la division des valeurs propres par la somme des valeurs propres dans l’analyse discriminante, il est préférable de simplement se référer à ce ratio comme une mesure d’importance plutôt que de variance. Des ratios plus élevés indiquent une plus grande importance pour la fonction donnée que des ratios plus faibles. La deuxième fonction représente 8,1 % de la variance (0,039/0,482 = 0,08). La 3ème fonction représente 3,3 %, tandis que la dernière fonction représente 0,4 %. La colonne 4 nous fournit le pourcentage cumulé de variance expliquée. Il est important de noter que les nombres dans les colonnes 3 et 4 ne sont pas des tailles d’effet pour la fonction discriminante. Ils révèlent simplement comment les valeurs propres se répartissent entre les fonctions discriminantes. Pour une mesure de la taille de l’effet pour chaque fonction discriminante, nous devons nous tourner vers la cinquième colonne ci-dessus, qui est celle de la Corrélation Canonique pour chaque fonction discriminante. La corrélation canonique au carré nous fournit une mesure de la taille de l’effet (ou « association ») pour la fonction discriminante donnée. Pour la première fonction, lorsque nous élevons au carré la corrélation canonique, nous obtenons (0,546)(0,546)=0,2981. C’est-à-dire que la taille de l’effet pour la première fonction discriminante est égale à 0,2981. Nous aurions également pu obtenir le nombre de 0,2981 par le ratio de la valeur propre à (1 + valeur propre). C’est-à-dire que la première fonction représente près de 30 % de la variance. La corrélation canonique au carré est une mesure de type R-carré similaire

Analyse Discriminante Linéaire dans IBM SPSS Lire la suite »

Test de Box’s M dans IBM SPSS

Nous pouvons obtenir le test de Box’s M pour la MANOVA via les tests d’homogénéité dans les Options (en face de l’endroit où nous avons sélectionné les estimations de la taille de l’effet). Nous aborderons le test de Box’s M plus en détail dans le contexte de l’analyse discriminante prochainement. Pour l’instant, voici comment prendre une décision basée sur ses résultats : ANALYSER → MODÈLE LINÉAIRE GÉNÉRAL → MULTIVARIÉ → OPTIONS Nous notons que puisque le test n’est pas statistiquement significatif (à gauche), nous n’avons pas de preuve pour rejeter l’hypothèse nulle d’égalité des matrices de covariance entre les groupes de la variable indépendante. SPSS rapporte également les valeurs du test de Levene de l’égalité des variances pour chaque variable dépendante. L’hypothèse nulle est que les variances entre les groupes sur la VI sont égales. Nous pouvons voir qu’aucun des tests de significativité ne rejette l’hypothèse nulle. Le test de Box’s M de l’égalité des covariances a été réalisé pour évaluer l’hypothèse nulle que les matrices de covariance observées des variables dépendantes étaient les mêmes entre les groupes. Le test s’est avéré non statistiquement significatif (p=0,250), et nous n’avons donc aucune preuve pour douter de l’égalité des matrices de covariance dans la population dont ces données sont issues. Le test de Levene de l’égalité des variances a évalué l’hypothèse nulle d’égalité des variances pour chaque variable dépendante considérée séparément. Pour aucune des variables dépendantes, l’hypothèse nulle n’a été rejetée.

Test de Box’s M dans IBM SPSS Lire la suite »