SPSS

Données

Analyse

Graphiques

Utilitaires

Transformation

Extensiosn

comparaison_multigroupe

Scores des Composantes dans IBM SPSS

Pour obtenir les scores des composantes sur chaque composante principale, nous pouvons d’abord utiliser la fonction automatique de SPSS pour calculer les scores factoriels. Sous Scores, cochez Enregistrer comme variables, puis sélectionnez l’approche Régression pour estimer les scores factoriels : Nous pouvons voir que SPSS a généré deux colonnes de scores factoriels. Ce ne sont pas encore tout à fait des scores de composantes, mais nous pouvons les obtenir à partir des scores factoriels. Pour obtenir les véritables scores des composantes, nous devons multiplier les scores factoriels par la racine carrée de la valeur propre de chaque composante : Nous pouvons vérifier qu’il s’agit bien des composantes. Elles auront une moyenne de zéro et des variances égales aux valeurs propres correspondantes de 8.111 et 0.069. Lorsque nous exécutons des statistiques descriptives sur les deux composantes (Comp_1 et Comp_2), nous obtenons : Nous remarquons qu’en mettant au carré les écarts-types correspondants (2.84798 et 0.26268), nous obtenons les variances (valeurs propres) des composantes (8.111 et 0.069, respectivement). Vous pouvez obtenir les variances directement en utilisant VARIANCE au lieu de STDDEV. En corrélant les scores des composantes, nous vérifions qu’ils ne sont pas corrélés et que leur nuage de points reflète celui des scores factoriels obtenus en termes de distribution :

Scores des Composantes dans IBM SPSS Lire la suite »

Analyse de Puissance pour la MANOVA dans IBM SPSS

Nous illustrons ici l’estimation de la taille d’échantillon pour une MANOVA à l’aide de G*Power : TESTS → MOYENNES → Multivarié : MANOVA : Effets globaux Nous définissons notre taille d’effet à f2=0,25, notre niveau de significativité à 0,05 et une puissance souhaitée de 0,95. Supposons que nous ayons trois groupes pour la variable indépendante et quatre variables de réponse. Dans ces conditions, la taille d’échantillon totale estimée est de 51 observations, ce qui signifie que nous avons besoin de 17 sujets par groupe. Une courbe de puissance apparaît à droite pour les paramètres mentionnés ci-dessus. Sélectionnez X–Y plot pour une plage de valeurs, puis cliquez sur Draw plot. Nous pouvons observer sur le graphique que lorsque la taille d’échantillon totale (sur l’axe des y) augmente, la puissance augmente également. Notez que la relation n’est pas exactement linéaire : pour des augmentations de puissance à des niveaux élevés (par exemple, 0,85 et plus), les exigences de taille d’échantillon total augmentent de manière significative par rapport aux différences de puissance à des niveaux plus bas.

Analyse de Puissance pour la MANOVA dans IBM SPSS Lire la suite »

Visualisation des résultats dans IBM SPSS

SPSS propose quelques graphiques utiles pour visualiser la séparation des groupes. L’un est simplement un graphique des scores discriminants et des centroïdes à travers les dimensions canoniques (nous avons produit ce graphique plus tôt), tandis que l’autre est ce qu’on appelle un graphique territorial. Ce sont des graphiques similaires mais qui nous donnent des informations légèrement différentes. Examinons le nuage de points des scores discriminants et plaçons-le côte à côte avec le graphique territorial. Nous avons dû entourer manuellement les centroïdes dans le graphique territorial car ils sont difficiles à voir avec les symboles « * » de SPSS parmi les signes « + ». Voici la différence entre les deux graphiques. Le graphique de gauche nous donne une idée de la séparation des groupes accomplie par chaque fonction. Remarquez que sur l’axe des x (fonction 1), il semble y avoir une bonne séparation entre T=1 vs T=2 et 3. Par conséquent, nous pouvons conclure que la fonction 1 semble faire un assez bon travail pour discriminer entre T=1 vs T=2 et 3. Maintenant, regardez le graphique du point de vue de la fonction 2 (tracez une ligne horizontale à 0,0 pour aider à la visualisation ; cela aide à voir la séparation ou son absence). Notez que la fonction 2 ne semble pas bien discriminer entre les groupes. Ils semblent tous alignés à environ 0,0, et il n’y a pas de séparation claire à aucun point le long de l’axe. Sans surprise, la fonction 2, comme vous pouvez vous en souvenir, avait une très petite valeur propre, tandis que la fonction 1 en avait une très grande. Cela correspond à ce que nous voyons dans le nuage de points. La fonction 1 faisait tout le travail. Passons maintenant à la carte territoriale. La carte territoriale nous donne une idée de où les cas devraient être classés étant donné un score conjoint sur les deux dimensions 1 et 2 et les limites de cette classification (c’est-à-dire les limites des scores de coupure). Par exemple, remarquez que la ligne presque verticale a une limite de 1 sur le côté gauche et de nombreux 2 sur la droite. Cela signifie que les cas marqués à gauche de cette limite devraient être classés dans T=1T=1, tandis que les cas marqués à droite devraient être classés dans T=2T=2, jusqu’à un certain point, où nous avons une autre limite créée par T=3T=3. La carte territoriale nous montre donc le « territoire » d’appartenance de chaque groupe selon les fonctions discriminantes obtenues. Un dernier point concernant les coefficients des fonctions discriminantes – parfois les chercheurs font tourner les coefficients dans un esprit similaire à ce qu’on ferait dans une analyse factorielle (comme nous le verrons bientôt) pour donner un meilleur sens substantiel aux fonctions. Cependant, aussi faciles à interpréter qu’ils puissent être après rotation, comme le notent Rencher et Christensen (2012, p. 301), la rotation peut compromettre les propriétés des fonctions. Par conséquent, au lieu de faire tourner les fonctions, l’interprétation des coefficients standardisés (comme nous les avons calculés précédemment) est souvent considérée comme une meilleure stratégie par ces auteurs.

Visualisation des résultats dans IBM SPSS Lire la suite »

Statistiques de Classification dans IBM SPSS

Quelle a été la performance de nos fonctions discriminantes pour la classification ? Pour cela, nous pouvons demander à SPSS de nous fournir les résultats de classification. Les statistiques par cas accompagnées des résultats de classification nous donnent toutes les informations nécessaires pour savoir si l’analyse discriminante a réussi ou non à classer les observations : Colonne 1 : contient le numéro de cas pour chaque observation. Nous avons un total de 9 observations. Colonne 2 : correspond au groupe réel auquel appartiennent les participants. Ce sont les groupes que nous avons saisis dans notre ensemble de données (il ne s’agit pas de valeurs de groupe prédites, mais bien de valeurs réelles d’appartenance). Colonne 3 : correspond au groupe prédit selon l’analyse discriminante. Comment les fonctions s’en sont-elles sorties ? Remarquez qu’elles ont correctement classé tous les cas sauf le cas n°7. Le cas 7 a été prédit dans le groupe 2 alors qu’en réalité il appartient au groupe 3. Il s’agit de la seule erreur de classification commise par la procédure. La distance de Mahalanobis au centroïde (au carré) représente une mesure de distance multivariée ainsi que la probabilité associée d’être classé dans le groupe donné. Remarquez que les deux colonnes de P(G = g|D = d) pour chaque cas (entre le groupe le plus probable et le deuxième plus probable) s’additionnent à 1,0. Si la distance par rapport au centroïde est très faible, la probabilité d’appartenir à ce groupe est élevée. Nous pouvons constater, pour les trois premiers cas, que la probabilité d’être classé dans le groupe donné en fonction de la distance est extrêmement élevée pour le groupe principal (1,000 ; 1,000 ; 1,000), et très faible pour le second groupe (0,000 ; 0,000 ; 0,000). Autrement dit, les cas 1 à 3 étaient des cas certains pour être classés dans le groupe 1 (le graphique des centroïdes que nous avons examiné précédemment le confirme facilement, puisque le groupe 1 est bien séparé des deux autres groupes). En examinant les autres cas, on remarque que si la distance entre le groupe le plus probable et le second est grande, alors la probabilité d’être classé dans ce groupe est plus faible que si la distance est faible. Les deux dernières colonnes sont les scores discriminants pour chaque fonction. Cette sortie du programme réplique les scores que nous avons déjà interprétés (et calculés pour quelques cas). Bien que ces informations soient déjà contenues dans les statistiques par cas ci-dessus, SPSS fournit également un résumé des résultats de classification basé sur l’utilisation des fonctions discriminantes pour classer correctement les observations dans des groupes : Le mode de lecture du tableau consiste à lire chaque ligne : Pour les cas appartenant au groupe T = 1, le modèle a prédit que les 3 seraient dans le groupe T = 1. Pour les cas du groupe T = 2, le modèle a prédit que les 3 seraient dans le groupe T = 2. Pour les cas du groupe T = 3, le modèle a prédit que 2 seraient dans le groupe T = 3, mais un serait dans le groupe T = 2. Rappelons que d’après les statistiques par cas, c’est la seule erreur de prédiction. Les pourcentages en dessous des résultats de classification indiquent que : Pour les cas du groupe T = 1, le modèle prédit avec une précision de 100 %. Pour le groupe T = 2, également 100 %. Pour le groupe T = 3, une précision de 66,7 %. Le nombre de cas correctement classés est de 8 sur 9 cas possibles. C’est ce que révèle la note en bas du tableau : 8/9 soit 88,9 % des cas originaux ont été classés correctement. SPSS fournit toujours les résultats de classification, que l’on peut prendre tels quels, mais si vous souhaitez en savoir plus sur le fonctionnement interne de l’analyse discriminante, notamment pour les problèmes à deux groupes ou multi-groupes avec scores de coupure ou coefficients de classification, voir Hair et al. (2006), qui offrent une explication détaillée de ce que fait le programme « en arrière-plan », surtout dans les cas de nombres inégaux par groupe et/ou probabilités a priori inégales (dans notre exemple, nous avions des N égaux et des probabilités a priori égales).

Statistiques de Classification dans IBM SPSS Lire la suite »

MANOVA et Analyse Discriminante sur Trois Populations dans IBM SPSS

Nous considérons un exemple de MANOVA et d’analyse discriminante sur trois populations. Dans cet exemple, nous allons un peu au-delà des bases de ces procédures et présentons une variété de résultats fournis par SPSS, y compris une variété de coefficients générés par les fonctions discriminantes. Considérons une version des données de formation avec une variable de regroupement en trois catégories (1 = pas de formation, 2 = formation partielle, et 3 = formation approfondie) : Entrées dans SPSS, nous obtenons : Nous souhaitons d’abord exécuter la MANOVA sur la déclaration de fonction suivante : Quantitatif + Verbal en fonction de la Formation Tous les tests de signification multivariés suggèrent de rejeter l’hypothèse nulle multivariée (p < 0,05). Nous pouvons obtenir les valeurs propres pour notre MANOVA à l’aide de la syntaxe suivante : La somme totale des valeurs propres est 14,35158 + 0,16124 = 14,51282. La première fonction discriminante est très importante, car 14,35158/14,51282 = 0,989. La deuxième fonction discriminante est beaucoup moins importante, car 0,16124/14,51282 = 0,01. Lorsque nous élevons au carré la corrélation canonique de 0,96688 pour la première fonction, nous obtenons 0,935, ce qui signifie qu’environ 93 % de la variance est expliquée par cette première fonction. Lorsque nous élevons au carré la corrélation canonique de 0,37263, nous obtenons 0,139, ce qui signifie qu’environ 14 % de la variance est expliquée par cette deuxième fonction discriminante. Rappelons que nous aurions pu également obtenir ces corrélations canoniques au carré par 14,35158/(1 + 14,35158) = 0,935 et 0,16124/(1 + 0,16124) = 0,139. Nous obtenons maintenant l’analyse discriminante correspondante sur ces données et comparons les valeurs propres avec celles de la MANOVA, ainsi que des résultats plus informatifs – ANALYSER → CLASSIFIER → ANALYSE DISCRIMINANTE  Nous pouvons voir que les valeurs propres et les corrélations canoniques pour chaque fonction discriminante correspondent à celles obtenues via la MANOVA dans SPSS. Nous voyons également que le Lambda de Wilks pour les fonctions 1 à 2 est statistiquement significatif (p = 0,003). La deuxième fonction discriminante n’est pas statistiquement significative (p = 0,365). SPSS nous fournit également les coefficients non standardisés des fonctions discriminantes (à gauche), ainsi que la constante pour le calcul des scores discriminants. À droite se trouvent les coefficients standardisés (généralement recommandés pour interpréter l’ »importance » relative des variables composant la fonction). Nous interprétons ces coefficients plus en détail : Coefficients non standardisés – analogues aux poids de régression partielle bruts en régression. La valeur constante de -6,422 est l’intercept pour le calcul des scores discriminants. Pour la fonction 1, le calcul est : Y=−6,422+0,030(Q)+0,979(V). Pour la fonction 2 : Y=−2,360+0,832(Q)−0,590(V). Coefficients standardisés – analogues aux coefficients Beta standardisés en régression multiple. Ils peuvent être utilisés comme mesure de l’importance de chaque variable dans la fonction discriminante. Nous voyons que pour la fonction 1, « Verbal » contribue fortement. Matrice de structure – corrélations bivariées entre les variables et la fonction discriminante. Rencher (1998) met en garde contre une interprétation trop basée sur ces coefficients, car ils représentent une contribution univariée plutôt que multivariée. Interpréter les coefficients standardisés est souvent préférable, mais examiner les deux types de coefficients peut être informatif pour « trianguler » la nature des dimensions extraites. Nous pouvons voir qu’à travers tous les coefficients, « Verbal » est plus pertinent pour la fonction 1, tandis que « Quantitatif » est plus pertinent pour la fonction 2. Nous ne montrons pas le test de Box’s M pour ces données car nous l’avons déjà démontré auparavant. Essayez-le vous-même et vous constaterez qu’il n’est pas statistiquement significatif (p = 0,532), ce qui signifie que nous n’avons aucune raison de douter de l’hypothèse d’égalité des matrices de covariance. Deux fonctions discriminantes ont été extraites, la première affichant une mesure d’association élevée (corrélation canonique au carré de 0,935), qui s’est avérée statistiquement significative (Lambda de Wilks = 0,056, p = 0,003). Les coefficients des fonctions discriminantes canoniques et leurs homologues standardisés ont tous deux suggéré que « Verbal » était plus pertinent pour la fonction 1 et « Quantitatif » pour la fonction 2. Les coefficients de structure ont également attribué un schéma d’importance similaire. Les scores discriminants ont été obtenus et tracés, révélant que la fonction 1 fournissait une bonne discrimination entre les groupes 1 vs. 2 et 3, tandis que la deuxième fonction fournissait un pouvoir discriminant minimal. Comment chaque colonne a-t-elle été calculée ? Elles ont été calculées à l’aide des coefficients non standardisés. Calculons quelques scores pour la première et la deuxième fonction : Fonction 1, cas 1 : −6,422+5(0,030)+2(0,979)=−6,422+0,15+1,958=−4,314−6,422+5(0,030)+2(0,979)=−6,422+0,15+1,958=−4,314 Fonction 1, cas 2 : −6,422+2(0,030)+1(0,979)=−6,422+0,06+0,979=−5,383−6,422+2(0,030)+1(0,979)=−6,422+0,06+0,979=−5,383 Fonction 2, cas 1 : −2,360+5(0,832)+2(−0,590)=−2,360+4,16−1,18=0,617−2,360+5(0,832)+2(−0,590)=−2,360+4,16−1,18=0,617 Fonction 2, cas 2 : −2,360+2(0,832)+1(−0,590)=−2,360+1,664−0,590=−1,287−2,360+2(0,832)+1(−0,590)=−2,360+1,664−0,590=−1,287 Nous pouvons voir que nos calculs correspondent à ceux générés par SPSS pour les deux premiers cas de chaque fonction. SPSS nous fournit également les centroïdes des groupes (moyennes) : Pour apprécier ces valeurs, considérons le graphique généré par SPSS : Fonction 1 : Moyenne des scores pour T=1 : −4,334 (confirmé par −4,31397,−5,38294,−3,30467). Moyenne pour T=2 : 1,652 (confirmé par 0,70270,2,63180,1,62250). Moyenne pour T=3: 2,682 (confirmé par 1,68217,3,67094,2,69147. Fonction 2 : T=1 : [0,61733+(−1,28702)+0,85864]/3=0,063. T=2: [0,99239+(−1,01952)+(−1,26084)]/3=−0,429. T=3: [0,40219+0,05331+0,64351]/3=0,366. Nous pouvons obtenir plus de détails sur les valeurs réelles dans le graphique en demandant à SPSS d’étiqueter chaque point (double-cliquez sur les points du graphique pour afficher les étiquettes). Remarquez que SPSS étiquette les valeurs des données dans le graphique selon leur valeur sur la fonction 2 (axe y). En rappelant les scores discriminants pour la fonction 2, nous pouvons facilement les faire correspondre.

MANOVA et Analyse Discriminante sur Trois Populations dans IBM SPSS Lire la suite »

Hypothèse d’Égalité des Matrices de Covariance dans IBM SPSS

Dans le cadre de l’ANOVA univariée, une des hypothèses à vérifier était l’égalité des variances des populations. Par exemple, pour une variable indépendante à trois groupes, nous devions supposer que la variance était la même à chaque niveau du facteur de regroupement. Dans la MANOVA (et donc aussi dans l’analyse discriminante), nous devons non seulement faire cette hypothèse, mais aussi supposer que les covariances entre les variables dépendantes sont identiques dans chaque population. Une matrice qui contient des variances et des covariances est appelée matrice de variance-covariance ou simplement matrice de covariance. Pour notre problème à cinq groupes (que ce soit via MANOVA ou analyse discriminante), nous devons évaluer l’hypothèse : ​ où ∑1à ∑5​ correspondent aux matrices de covariance de chaque population. Pour tester cette hypothèse, nous utilisons à nouveau le test de Box’s M fourni par SPSS. Pour obtenir ce test via l’analyse discriminante : ANALYSER → CLASSIFIER→ ANALYSE DISCRIMINANTE , puis sélectionnez Statistics et cochez Box’s M sous Descriptives : Rappelons que l’hypothèse nulle est que toutes les matrices de covariance sont égales ; par conséquent, nous souhaitons ne pas rejeter cette hypothèse. Autrement dit, nous cherchons une valeur pp (Sig.) non significative pour le test de Box’s M. La valeur pp ici est égale à 0.250, ce qui est bien supérieur au seuil conventionnel de 0.05. Nous ne rejetons donc pas l’hypothèse nulle et pouvons considérer que les matrices de covariance sont approximativement égales (ou du moins pas suffisamment inégales pour poser problème à l’analyse discriminante).

Hypothèse d’Égalité des Matrices de Covariance dans IBM SPSS Lire la suite »

Analyse Discriminante Linéaire dans IBM SPSS

Que nous a révélé notre MANOVA ? Notre MANOVA nous a essentiellement indiqué que sur la combinaison linéaire de mb + bh + bl + nh, nous avons des preuves suggérant des différences de moyennes dans la population. Mais rappelons ce qu’est une combinaison linéaire dans le contexte de la MANOVA. Il ne s’agit pas simplement de sommer mb à nh. Une combinaison linéaire est une pondération de ces variables. La MANOVA nous a montré qu’il y avait des différences de moyennes sur une combinaison linéaire optimisée de mb + bh + bl + nh, mais elle ne nous a pas révélé à quoi ressemblait cette pondération. C’est là qu’intervient l’analyse discriminante. L’analyse discriminante va nous dévoiler la ou les combinaisons linéaires optimisées qui ont généré les différences de moyennes dans notre MANOVA. Si nous appelons « w » les poids de notre combinaison linéaire, alors nous avons : Combinaison linéaire = w1(mb) + w2(bh) + w3(bl) + w4(nh) L’analyse discriminante va nous indiquer quelles sont réellement les valeurs des poids w1, w2, w3 et w4, afin que nous puissions mieux comprendre la nature de cette ou ces fonctions qui discriminent si bien entre les groupes d’époques (et génèrent équivalemment des différences de moyennes). Nous soulignerons les similitudes entre MANOVA et DISCRIM au fur et à mesure. Pour réaliser une analyse discriminante dans SPSS : ANALYSER → CLASSiFIER → ANALYSE DISCRIMINANTE Nous déplaçons epoch_cat dans la boîte Grouping Variable et mb, bh, bl et nh dans la boîte des indépendantes. SPSS nous demandera de définir la plage de la variable de regroupement. Le minimum est ~4000 et le maximum est 150, mais SPSS n’acceptera pas un nombre minimum aussi bas. Une solution simple est de recoder la variable en nombres de 1 à 5 (ci-dessous). Nous appelons notre variable recodée epoch_cat, ayant maintenant des niveaux de 1 à 5. Enfin, avant d’exécuter la procédure, nous nous assurons également que Entrer les variables simultanément est sélectionné. Résumé des Fonctions Discriminantes Canoniques Quatre fonctions discriminantes ont été extraites de la procédure d’analyse discriminante. La première fonction a donné une valeur propre de 0,425 et, parmi les quatre fonctions, elle a représenté 88,2 % des valeurs propres extraites* (voir l’interprétation ci-dessous, points 2 à 5). La première fonction était très importante, donnant une corrélation canonique au carré de 29,81 % (c’est-à-dire 0,546 × 0,546), tandis que les fonctions restantes étaient beaucoup moins pertinentes. Seule la première fonction était statistiquement significative (Wilks = 0,664, p = 0,000). Ci-dessus, SPSS rapporte des résultats utiles pour interpréter l’analyse discriminante : SPSS a produit quatre fonctions discriminantes. Ces fonctions sont numérotées de 1 à 4 dans la première colonne du Résumé des Fonctions Discriminantes Canoniques. (Le Lambda de Wilks dans le tableau accompagnant indique que seule la fonction 1 est statistiquement significative.) La deuxième colonne contient les valeurs propres. Les valeurs propres ont des interprétations légèrement différentes selon qu’elles sont obtenues dans une analyse discriminante ou une analyse en composantes principales (par exemple, la valeur propre n’est pas une variance dans l’analyse discriminante, bien qu’elle le soit dans l’analyse en composantes principales (Rencher et Christensen 2012)). Pour DISCRIM, la valeur propre nous fournit une mesure de « l’importance » de la fonction discriminante, où des valeurs propres plus grandes indiquent une plus grande importance que des valeurs plus petites. Nous pouvons voir que la fonction 1 est la plus importante en termes de capacité discriminante, car elle est plus grande que les valeurs propres des fonctions 2 à 4. En utilisant les valeurs propres, nous pouvons calculer les nombres dans la colonne 3, % de Variance, en prenant la valeur propre respective et en la divisant par la somme des valeurs propres. Pour la première fonction, la « proportion de variance » expliquée est 0,425/(0,425 + 0,039 + 0,016 + 0,002) = 0,882. C’est-à-dire que la première fonction discriminante représente 88,2 % de la variance de celles extraites. Il convient de noter que l’utilisation des valeurs propres de manière « proportion de variance expliquée » est, à strictement parler, quelque peu inexacte, car comme mentionné, les valeurs propres dans l’analyse discriminante ne sont pas de véritables « variances » (elles le sont dans l’analyse en composantes principales, mais pas dans l’analyse discriminante). Cependant, pragmatiquement, le langage « proportion de variance » est souvent utilisé lors de l’interprétation des fonctions discriminantes (même SPSS le fait en intitulant la colonne 3 par « % de Variance »). Voir Rencher et Christensen (2012) pour une explication plus approfondie des subtilités sur ce point. La règle générale est que lors de la division des valeurs propres par la somme des valeurs propres dans l’analyse discriminante, il est préférable de simplement se référer à ce ratio comme une mesure d’importance plutôt que de variance. Des ratios plus élevés indiquent une plus grande importance pour la fonction donnée que des ratios plus faibles. La deuxième fonction représente 8,1 % de la variance (0,039/0,482 = 0,08). La 3ème fonction représente 3,3 %, tandis que la dernière fonction représente 0,4 %. La colonne 4 nous fournit le pourcentage cumulé de variance expliquée. Il est important de noter que les nombres dans les colonnes 3 et 4 ne sont pas des tailles d’effet pour la fonction discriminante. Ils révèlent simplement comment les valeurs propres se répartissent entre les fonctions discriminantes. Pour une mesure de la taille de l’effet pour chaque fonction discriminante, nous devons nous tourner vers la cinquième colonne ci-dessus, qui est celle de la Corrélation Canonique pour chaque fonction discriminante. La corrélation canonique au carré nous fournit une mesure de la taille de l’effet (ou « association ») pour la fonction discriminante donnée. Pour la première fonction, lorsque nous élevons au carré la corrélation canonique, nous obtenons (0,546)(0,546)=0,2981. C’est-à-dire que la taille de l’effet pour la première fonction discriminante est égale à 0,2981. Nous aurions également pu obtenir le nombre de 0,2981 par le ratio de la valeur propre à (1 + valeur propre). C’est-à-dire que la première fonction représente près de 30 % de la variance. La corrélation canonique au carré est une mesure de type R-carré similaire

Analyse Discriminante Linéaire dans IBM SPSS Lire la suite »

Test de Box’s M dans IBM SPSS

Nous pouvons obtenir le test de Box’s M pour la MANOVA via les tests d’homogénéité dans les Options (en face de l’endroit où nous avons sélectionné les estimations de la taille de l’effet). Nous aborderons le test de Box’s M plus en détail dans le contexte de l’analyse discriminante prochainement. Pour l’instant, voici comment prendre une décision basée sur ses résultats : ANALYSER → MODÈLE LINÉAIRE GÉNÉRAL → MULTIVARIÉ → OPTIONS Nous notons que puisque le test n’est pas statistiquement significatif (à gauche), nous n’avons pas de preuve pour rejeter l’hypothèse nulle d’égalité des matrices de covariance entre les groupes de la variable indépendante. SPSS rapporte également les valeurs du test de Levene de l’égalité des variances pour chaque variable dépendante. L’hypothèse nulle est que les variances entre les groupes sur la VI sont égales. Nous pouvons voir qu’aucun des tests de significativité ne rejette l’hypothèse nulle. Le test de Box’s M de l’égalité des covariances a été réalisé pour évaluer l’hypothèse nulle que les matrices de covariance observées des variables dépendantes étaient les mêmes entre les groupes. Le test s’est avéré non statistiquement significatif (p=0,250), et nous n’avons donc aucune preuve pour douter de l’égalité des matrices de covariance dans la population dont ces données sont issues. Le test de Levene de l’égalité des variances a évalué l’hypothèse nulle d’égalité des variances pour chaque variable dépendante considérée séparément. Pour aucune des variables dépendantes, l’hypothèse nulle n’a été rejetée.

Test de Box’s M dans IBM SPSS Lire la suite »

Tailles de l’Effet dans IBM SPSS

Nous pouvons également obtenir les tailles de l’effet pour nos effets. Les tailles de l’effet sont données dans la colonne de droite sous la forme de statistiques Eta-carré partiel (vous pouvez les trouver sous Options, puis Estimates of effect size) : La proportion de variance expliquée par epoch sur la combinaison linéaire de mb, bh, bl et nh variait de 0.088 à 0.298 selon le test multivarié interprété. Pour le Lambda de Wilks, nous pouvons dire qu’environ 9.7% de la variance dans notre combinaison linéaire est expliquée par la connaissance de epoch. Tests Univariés Par défaut, SPSS nous fournit également les Tests Univariés des Effets Inter-Sujets. Ces tests évaluent l’hypothèse nulle qu’il n’y a pas de différences de moyennes dans la population pour epoch sur chaque variable dépendante considérée séparément. Ce test peut ou non vous intéresser. Lorsque vous effectuez une MANOVA, vous souhaitiez probablement analyser une combinaison linéaire de variables de réponse. Si c’est le cas, alors à moins que vous ne vouliez également tester chaque variable de réponse de manière univariée, ces tests ne présenteront pas d’intérêt. Néanmoins, nous les interprétons car SPSS les affiche par défaut. Une fois de plus, nous passons l’interprétation des résultats pour l’intercept car il n’est généralement pas d’intérêt. Les tests sur epoch, en revanche, sont intéressants. Nous résumons ce que nous indique la sortie : Lorsque mb est considérée comme la seule variable dépendante, nous avons des preuves de différences de moyennes sur epoch (p=0.000). Lorsque bh est analysée comme la seule variable dépendante, nous avons des preuves de différences de moyennes sur epoch (p=0.049). Lorsque bl est analysée comme la seule variable dépendante, nous avons des preuves de différences de moyennes sur epoch (p=0.000). Lorsque nh est analysée comme la seule variable dépendante, nous n’avons pas de preuves de différences de moyennes sur epoch (p=0.203). Ainsi, nous pouvons voir que pour trois des quatre variables de réponse, nous sommes en mesure de rejeter l’hypothèse nulle d’égalité des moyennes de la population sur ces variables. Il est très important de noter que même si nous avons obtenu un effet multivarié statistiquement significatif dans notre MANOVA, cela n’implique pas que les quatre tests univariés seraient statistiquement significatifs (notez que seulement trois des quatre tests univariés sont statistiquement significatifs). De même, même si nous avions obtenu quatre tests univariés statistiquement significatifs, cela n’aurait pas automatiquement impliqué un effet multivarié statistiquement significatif. Cette idée que la significativité multivariée n’implique pas automatiquement une significativité univariée (et vice versa) est généralement connue sous le nom de Paradoxe de Rao. 

Tailles de l’Effet dans IBM SPSS Lire la suite »

Exemple de MANOVA dans IBM SPSS

Nous considérons les données fournies par Anderson (2003, p. 345) sur des crânes égyptiens. Dans cette analyse, il a été émis l’hypothèse que la taille du crâne est fonction de la période temporelle, également appelée « époque ». La taille du crâne est définie par quatre variables : mb (largeur maximale du crâne) bh (hauteur basi-brégmatique du crâne) bl (longueur basio-alvéolaire du crâne) nh (hauteur nasale du crâne) Notez que ci-dessus nous avons abrégé nos variables comme nous les entrerons dans SPSS. C’est-à-dire que « mb » signifie « largeur maximale du crâne », « bh » signifie « hauteur basi-brégmatique du crâne », etc. Dans une ANOVA classique, nous pourrions analyser chacune de ces variables dépendantes séparément. Cependant, dans une MANOVA, nous choisissons de les analyser simultanément comme une combinaison linéaire du type : mb + bh + bl + nh. L’époque, la variable indépendante, a cinq niveaux : c4000BC, c3300BC, c1850BC, c200BC et cAD150. Ainsi, notre énoncé de fonction pour la MANOVA ressemble à ceci : mb + bh + bl + nh en fonction de l’eˊpoque (cinq niveaux). Encore une fois, notez qu’il s’agit d’une MANOVA parce que nous avons plus d’une variable dépendante et que nous analysons ces variables simultanément. Rappelons qu’en théorie, nous pourrions simplement calculer quatre ANOVA univariées différentes qui considèrent chaque variable dépendante séparément dans chaque analyse. C’est-à-dire que nous aurions pu formuler quatre énoncés de fonction différents : mb en fonction de l’eˊpoque.mb en fonction de l’eˊpoque.bh en fonction de l’eˊpoque.bh en fonction de l’eˊpoque.bl en fonction de l’eˊpoque.bl en fonction de l’eˊpoque.nh en fonction de l’eˊpoque.nh en fonction de l’eˊpoque. Alors, pourquoi se donner la peine de calculer une MANOVA au lieu de plusieurs ANOVA ? Il y a deux raisons principales pour potentiellement préférer la MANOVA – la première est substantielle, et la seconde est statistique : Premièrement, nous nous intéressons à l’analyse de quelque chose appelé « taille du crâne », qui est un concept multidimensionnel composé de mb, bh, bl et nh. C’est pourquoi il est logique dans ce cas de « combiner » toutes ces variables dépendantes en une somme. Si cela n’avait pas eu de sens théorique, alors effectuer une MANOVA n’aurait pas non plus eu beaucoup de sens. Par exemple, effectuer une MANOVA sur la combinaison linéaire suivante n’aurait aucun sens : mb + bh + bl + pizza préférée en fonction de l’époque. La MANOVA n’a pas de sens dans ce cas parce que « pizza préférée » n’appartient tout simplement pas substantivement à la combinaison linéaire. C’est-à-dire que mb + bh + bl + pizza préférée n’est plus « taille du crâne » ; c’est autre chose (on ne sait pas trop quoi !). Le point important ici est que si vous envisagez de faire une MANOVA, c’est parce que vous avez plusieurs variables dépendantes à votre disposition qui, considérées comme une somme linéaire, ont du sens. Si cela n’a pas de sens, alors la MANOVA n’est pas quelque chose que vous devriez faire. Respectez la règle suivante : Vous ne devriez pas faire une MANOVA simplement parce que vous avez plusieurs variables dépendantes à votre disposition pour l’analyse. Vous devriez faire une MANOVA parce que théoriquement, il est logique d’analyser plusieurs variables dépendantes en même temps. La deuxième raison pour laquelle la MANOVA peut être préférée à plusieurs ANOVA séparées est de contrôler le taux d’erreur de type I. Rappelons que dans tout test statistique unique, il y a un taux d’erreur de type I, souvent fixé à 0,05. Chaque fois que nous rejetons une hypothèse nulle, nous le faisons avec la possibilité que nous puissions nous tromper. Cette possibilité est généralement fixée à 0,05. Eh bien, lorsque nous effectuons plusieurs tests statistiques, ce taux d’erreur se cumule et est approximativement additif (ce n’est pas tout à fait 0,05+0,05+0,05+0,05 dans notre cas, mais à peu près) ; Le point important pour nos besoins est que lorsque nous analysons des variables dépendantes simultanément, nous n’avons qu’un seul taux d’erreur à considérer au lieu de plusieurs comme nous aurions dans le cas de l’ANOVA. Ainsi, lorsque nous analysons la variable dépendante mb + bh + bl + nh, nous pouvons fixer notre niveau de signification à 0,05 et tester notre hypothèse nulle à ce niveau. Donc, en bref, une deuxième raison d’apprécier la MANOVA est qu’elle aide à contrôler l’inflation du taux d’erreur de type I. Cependant (et c’est important !), si la condition 1 ci-dessus n’est pas d’abord satisfaite, c’est-à-dire s’il n’a pas de sens « substantiel » que vous devriez faire une MANOVA, alors indépendamment du contrôle qu’elle a sur le taux d’erreur de type I, vous ne devriez pas faire de MANOVA ! La MANOVA doit d’abord avoir un sens substantiel du point de vue de la recherche avant que vous ne profitiez de ses avantages statistiques. Encore une fois, votre question de recherche devrait suggérer une MANOVA, pas seulement le nombre de variables dépendantes que vous avez dans votre ensemble de données. Entrés dans SPSS, nos données se présentent comme suit (nous ne listons que 10 cas, tous pour epoch = -4000) : Nous procédons à l’exécution de la MANOVA : ANALYSER → MODÈLE LINÉAIRE GÉNÉRALE → MULTIVARIÉ Nous déplaçons mb, bh, bl et nh vers la boîte Variables Dépendantes. Nous déplaçons epoch vers la boîte Facteur(s) Fixe(s). Si vous aviez une covariable à inclure, vous la déplaceriez vers la boîte Covariable(s). Nous cliquons ensuite sur OK pour exécuter la MANOVA (nous sélectionnerons plus d’options plus tard). SPSS confirme d’abord pour nous qu’il y a N = 30 observations par groupe sur la variable indépendante. Le nombre total d’observations pour l’ensemble des données est de 150. SPSS nous fournit ensuite les Tests Multivariés pour évaluer l’hypothèse nulle qu’il n’y a pas de différences moyennes à travers la combinaison linéaire des variables de réponse : Une discussion de ces tests multivariés et de leur fonctionnement peut facilement prendre plusieurs pages et implique des matrices et des déterminants. Rappelons que dans l’ANOVA, nous n’avions généralement qu’un seul test de l’hypothèse nulle omnibus globale du type H0:μ1=μ2=μ3 pour disons un problème de population à trois groupes. Le seul test que nous utilisions pour tester l’effet global était le test F, défini comme F=MS intergroupes/MS intragroupes​ Ce qui fonctionnait bien et était notre seul test de

Exemple de MANOVA dans IBM SPSS Lire la suite »