SPSS

Données

Analyse

Graphiques

Utilitaires

Transformation

Extensiosn

Moyo Nya

Analyse de régression multiple dans IBM SPSS

Rappelons le modèle de régression multiple évoqué précédemment : yi=α+β1 x1i+β2 x2i+εi. Comme le modèle de régression linéaire simple, le modèle ci-dessus vise à faire des prédictions de la variable réponse, mais cette fois, au lieu d’utiliser uniquement un seul prédicteur xi, nous incluons maintenant un deuxième prédicteur x2. Nous n’avons pas besoin de nous arrêter là ; nous pouvons théoriquement inclure beaucoup plus de prédicteurs, de sorte que la forme générale du modèle devient, pour kk prédicteurs : yi=α+β1 x1i+β2 x2i+.⋯+βk​xki​+ϵi​ Bien que l’objectif de la régression multiple soit le même que celui de la régression simple, c’est-à-dire faire des prédictions de la réponse, traiter plusieurs dimensions simultanément devient beaucoup plus complexe et nécessite des matrices pour illustrer les calculs. Bien que nous utiliserons des matrices plus tard dans le livre lorsque nous aborderons les techniques multivariées, pour l’instant, nous reportons notre discussion à leur sujet et nous concentrons uniquement sur l’interprétation du modèle de régression à travers un exemple. Nous allons maintenant démontrer comment effectuer une analyse de régression multiple complète dans SPSS et comment interpréter les résultats. Nous effectuerons notre régression multiple sur l’ensemble de données fictif suivant, tiré de Petrocelli (2003), dans lequel nous sommes intéressés par la prédiction de l’Évaluation Globale du Fonctionnement (GAF) (des scores plus élevés indiquent un meilleur fonctionnement) basée sur trois prédicteurs : l’âge, le score de dépression avant la thérapie (des scores plus élevés indiquent plus de dépression) et le nombre de séances de thérapie. Nos données dans SPSS se présentent comme suit : Nos variables sont définies comme suit : GAF – Score d’Évaluation Globale du Fonctionnement (des scores plus élevés indiquent un meilleur fonctionnement). AGE – Âge du participant en années. PRETHERAPY – Score de dépression d’un participant avant la thérapie (des scores plus élevés = plus de dépression). N_THERAPY – Nombre de séances de thérapie pour un participant. Il n’y a que 10 cas par variable, mais il est néanmoins utile d’examiner leurs distributions, à la fois de manière univariée (c’est-à-dire pour chaque variable) et bivariée par paires (deux variables à la fois dans des diagrammes de dispersion), à la fois pour avoir une idée de la distribution continue des variables et aussi pour des preuves préliminaires qu’il existe des relations linéaires entre les variables. Bien que les prédicteurs dans la régression puissent représenter des groupements catégoriels (s’ils sont codés de manière appropriée), pour cette régression, nous supposerons que les prédicteurs sont continus. Cela implique que le prédicteur doit avoir une variabilité raisonnable. Les analyses exploratoires suivantes aideront à confirmer la continuité de nos variables prédictives. Rappelons également que pour la régression, la variable dépendante (ou réponse) doit être continue. Si ce n’est pas le cas, comme une variable codée binaire (par exemple, oui vs non), alors la régression multiple n’est pas la meilleure stratégie. L’analyse discriminante ou la régression logistique est plus adaptée pour les modèles avec des variables dépendantes binaires ou polytomiques. « Polytomique » signifie que la variable a plusieurs catégories. Nous générons quelques histogrammes de nos variables : GRAPHIQUES → DIALOGUES ANCIENS → HISTOGRAMME Nous sélectionnons d’abord la variable GAF pour examiner son histogramme : Nous déplaçons « GAF » du côté gauche vers le côté droit sous Variable. La syntaxe ci-dessus est celle qui pourrait être utilisée dans la fenêtre de syntaxe au lieu de l’interface graphique. Dans la fenêtre de syntaxe, nous entrerions : FICHIER → NOUVEAU → SYNTAXE Après avoir saisi la syntaxe, cliquez sur la flèche verte en haut à droite pour exécuter la syntaxe. Nous remarquons (à gauche) qu’avec une moyenne égale à 28.00 et un écart type de 15.89, la variable GAF semble être quelque peu normalement distribuée dans l’échantillon. Les distributions d’échantillon des variables ne seront jamais parfaitement normales, ni n’ont besoin de l’être pour la régression. La question pour l’instant a plus à voir avec le fait que la variable a une distribution suffisante le long de l’axe des x pour la traiter comme une variable continue. Pour GAF, la variable semble relativement « bien comportée » à cet égard. Les histogrammes des variables prédictives AGE, PRETHERAPY et N_THERAPY suivent ci-dessous : GRAPHIQUES → DIALOGUES ANCIENS → HISTOGRAMME GRAPH /HISTOGRAM=AGE. GRAPH /HISTOGRAM=PRETHERAPY. GRAPH /HISTOGRAMME=N_THERAPY. Tous les histogrammes révèlent une certaine continuité dans leurs variables respectives, suffisante pour que nous puissions procéder à la régression multiple. Rappelez-vous, ces distributions n’ont pas besoin d’être parfaitement normales pour que nous puissions continuer, ni la régression ne les exige – nous traçons simplement les distributions pour avoir une idée de la mesure dans laquelle il y a une distribution (la mesure dans laquelle les scores varient), mais le fait que ces distributions ne soient pas normalement distribuées n’est pas un problème. Une des hypothèses de la régression multiple est que les résidus (du modèle que nous allons construire) sont généralement approximativement normalement distribués, mais nous vérifierons cette hypothèse via des analyses des résidus après avoir ajusté le modèle. Les résidus sont basés sur le modèle ajusté complet, et non sur des distributions univariées considérées séparément comme ci-dessus.

Analyse de régression multiple dans IBM SPSS Lire la suite »

Interprétation d’une Régression Linéaire Simple : Aperçu des Résultats dans IBM S

Étant donné que la majorité des régressions que vous conduirez seront probablement des régressions multiples, nous consacrons la majeure partie de ce chapitre à l’interprétation du modèle de régression multiple. Cependant, pour commencer, nous présentons un modèle de régression simple et nous concentrons sur l’interprétation des coefficients de ce modèle. Régressons la variable « verbal » sur la variable « quantitative » : ANALYSE – REGRESSION – LINEARE.   Nous sélectionnerons davantage d’options lorsque nous aborderons la régression multiple, mais pour l’instant, examinons les résultats de ce modèle simple : Pour le modèle de régression simple, la valeur de R (0.808) est égale à la corrélation bivariée entre « quantitatif » et « verbal ». Comme nous le verrons, dans le modèle de régression multiple, RR sera défini de manière plus complexe et représentera la corrélation des prédicteurs (au pluriel) avec la variable réponse. Le R2 de 0.653 est le carré de R et représente la proportion de variance de « verbal » expliquée par « quantitatif ». Pour nos données, le R2 ajusté est donné par : où n est le nombre d’observations et pp est le nombre de paramètres estimés dans le modèle (y compris l’ordonnée à l’origine). Le rôle de R2Aj est de fournir une estimation plus prudente de la vraie valeur de R2Aj dans la population, car il « pénalise » en quelque sorte l’ajout de paramètres non pertinents. Ainsi, R2Aj​ est généralement inférieur à R2. Pour nos données, le R2 ajusté de 0.641 est légèrement inférieur au R2 de 0.653. Le choix de rapporter la valeur ajustée ou non dans vos résultats est souvent une question de préférence. L’erreur standard de l’estimation est la racine carrée de la moyenne des résidus (MS Residual) de l’ANOVA associée à la régression, qui montre comment la variance a été partitionnée : Remarquez que la valeur de l’erreur standard de l’estimation est égale à la racine carrée de 60.506, la valeur de MS Residual. Nous discuterons plus en détail le contenu du tableau ANOVA lorsque nous aborderons le modèle de régression multiple complet. Pour l’instant, nous pouvons observer que nous avons obtenu une statistique F de 52.678, qui est statistiquement significative (p=0.000), indiquant que la prédiction de « verbal » à l’aide de « quantitatif » est meilleure que sans « quantitatif ». Nous pouvons également voir comment R2 a été calculé par le rapport SS Régression / SS Total (soit 3187.305 / 4881.467 = 0.653). Les degrés de liberté pour la régression correspondent au nombre de prédicteurs dans le modèle, qui est ici de 1. Les degrés de liberté résiduels sont égaux à n−k−1=30−1−1=28n−k−1=30−1−1=28 (où k est le nombre de prédicteurs, ici égal à 1). SPSS nous fournit les coefficients du modèle. La valeur de la constante est la valeur prédite lorsque « quant » est égal à 0. L’équation de régression estimée est : Verbal=35.118+0.565(quantitatif). L’ordonnée à l’origine est calculée par : où aY⋅X​ est l’ordonnée à l’origine de Y régressé sur X et bY⋅X​ est la pente de Y régressé sur X. Lorsque « quantitatif » = 0, nous avons : Verbal=35.118+0.565(0)=35.118+0=35.118 Le coefficient pour « quantitatif » est de 0.565 et s’interprète comme suit : pour une augmentation d’une unité de « quantitatif », nous pouvons nous attendre, en moyenne, à une augmentation de 0.565 unités de « verbal ». Ce coefficient de 0.565 est la pente de la régression de « verbal » sur « quantitatif » et est calculé par : ​ Nous voyons que la pente compare la somme des produits croisés au numérateur avec la somme des carrés pour Xi​ au dénominateur. Généralement, nous ne nous intéressons pas autant à la valeur de l’ordonnée à l’origine, ni à son test de significativité. Notre attention se porte davantage sur la pente, car c’est elle qui nous renseigne sur la capacité prédictive de notre variable explicative. SPSS indique les erreurs standard (Std. Error) pour l’ordonnée à l’origine et la pente, utilisées pour calculer les tests t associés à chaque paramètre estimé. Par exemple, la statistique tt de 6.514 pour la constante est calculée par 35.118 / 5.391, tandis que celle de 7.258 pour « quantitatif » est obtenue par 0.565 / 0.078. L’hypothèse nulle testée pour la constante et la pente est qu’elles sont toutes deux égales à 0. Pour la pente, cela revient à dire que « quantitatif » n’apporte aucune puissance prédictive supplémentaire par rapport à la simple prédiction de la moyenne de « verbal ». Comme p=0.000, nous avons des preuves inférentielles suggérant que la pente dans la population n’est pas nulle. En effet, le R2 de 0.653 indique qu’environ 65 % de la variance de « verbal » est expliquée par « quantitatif ». Bien sûr, le modèle ne sera pas parfait, et nous observerons des erreurs par rapport à la droite de régression ajustée. Un résidu est la différence entre la valeur observée et la valeur prédite, soit yi−yi′. Les résidus sont importants à examiner après l’ajustement du modèle, non seulement pour évaluer la qualité globale de l’ajustement, mais aussi pour valider les hypothèses sous-jacentes. Nous réservons cette discussion pour le modèle de régression multiple complet, que nous aborderons ensuite.

Interprétation d’une Régression Linéaire Simple : Aperçu des Résultats dans IBM S Lire la suite »

Exemple de Régression Linéaire Simple dans IBM SPSS

À titre d’exemple simple de régression linéaire, rappelons nos données de QI mentionnées précédemment : Examinons un nuage de points verbal en fonction du quantitatif. Nous constatons que la relation est approximativement linéaire. Malgré la dispersion des points de données, nous pourrions ajuster une droite aux données afin de prédire les valeurs du verbal à partir des valeurs du quantitatif. Nous ajustons ci-dessous une telle droite, appelée droite des moindres carrés : La droite de régression des moindres carrés de la population est donnée par : yi=α+βxi+εi où α est l’ordonnée à l’origine de la population et β est la pente de la population. Les valeurs de εᵢ sont les erreurs de prédiction. Bien entendu, nous ne connaîtrons généralement pas les valeurs de α et β dans la population et devrons donc les estimer à l’aide des données de l’échantillon. La droite des moindres carrés est ajustée de manière à ce que, lorsque nous l’utilisons pour prédire le score verbal à partir du score quantitatif, nos erreurs de prédiction soient, en moyenne, plus faibles que si nous avions ajusté une autre droite. Une erreur de prédiction est une déviation de la forme : ei=yi−y’i. où yᵢ sont les valeurs observées du verbal et ŷᵢ sont les valeurs prédites. La régression des moindres carrés garantit que la somme des carrés de ces erreurs est minimale (c’est-à-dire la plus petite possible comparée à tout autre ajustement de droite) : Si le modèle de population était une régression linéaire multiple, nous pourrions avoir une seconde variable prédictive : yi=a+b1x1i+b2x2i+εi et la fonction des moindres carrés viserait alors à minimiser ce qui suit : Notez que, que le modèle soit simple ou multiple, le concept reste le même. On ajuste une fonction des moindres carrés de manière à minimiser la somme des carrés des erreurs autour de la fonction.

Exemple de Régression Linéaire Simple dans IBM SPSS Lire la suite »

Mesures répétées à deux facteurs : un facteur intra-sujets et un facteur inter-sujets dans IBM SPSS

  Nous allons  présenter une ANOVA à mesures répétées comportant non seulement un facteur intra-sujets  mais également un facteur inter-sujets. Pour ces données, supposons que certains rats aient été soumis à un régime spécial (facteur inter-sujets), et nous souhaitons également savoir si le traitement a eu un effet Apprentissage en fonction de l’essai et du traitement (Données hypothétiques) Entrées dans SPSS, nos données sont : Pour lancer l’analyse, nous sélectionnons comme précédemment : ANALYSE → MODÈLE LINÉAIRE GÉNÉRAL → MESURES RÉPÉTÉES Nous nommons une fois de plus le facteur intra-sujets, mais il faudra aussi inclure le facteur treat (traitement) dans l’analyse : Remarquez ci-dessus que nous avons déplacé treat dans la boîte des facteurs inter-sujets. Nous procédons ensuite à l’analyse : Les tests multivariés montrent qu’il existe une preuve d’un effet de l’essai (p = 0.007), mais pas d’une interaction essai*traitement (p = 0.434). Test de sphéricité de Mauchlya Le test de sphéricité de Mauchly donne une valeur p = 0.245, donc nous n’avons pas de preuve pour rejeter l’hypothèse nulle de sphéricité. Cela signifie que nous pourrions, en théorie, interpréter la sortie avec sphéricité supposée (mais nous interpréterons de toute façon le test de Greenhouse–Geisser, qui est plus conservateur). Tests des effets intra-sujets Les tests univariés ci-dessus révèlent un effet pour l’essai (p = 0.000), mais aucun pour l’interaction essai*traitement (G–G, p = 0.194). Tests des effets inter-sujets Les effets inter-sujets indiquent la présence d’un effet pour le traitement (p = 0.005), avec un eta carré partiel de 0.891. Un graphique illustrant les résultats montre clairement cette tendance :   Une ANOVA à mesures répétées 2 × 3 a été réalisée, où le traitement était le facteur inter-sujets avec deux niveaux, et l’essai était le facteur intra-sujets avec trois niveaux. Un effet de traitement (p = 0.005) ainsi qu’un effet d’essai (p < 0.001) ont été observés. Aucune preuve d’un effet d’interaction n’a été trouvée (Greenhouse–Geisser, p = 0.194).

Mesures répétées à deux facteurs : un facteur intra-sujets et un facteur inter-sujets dans IBM SPSS Lire la suite »

ANOVA à Mesures Répétées à un Facteur dans IBM SPSS

Considérons les données fictives suivantes sur l’apprentissage en fonction de l’essai. Pour ces données, six rats ont été observés dans une boîte de Skinner, et le temps (en minutes) que chaque rat a pris pour appuyer sur un levier a été enregistré. Si le rat apprend la réponse « appuyer sur le levier », alors le temps nécessaire pour appuyer sur le levier devrait diminuer au fil des essais. Apprentissage en fonction de l’essai (Données hypothétiques) Essai Rat 1 2 3 Moyennes des rats 1 10.0 8.2 5.3 7.83 2 12.1 11.2 9.1 10.80 3 9.2 8.1 4.6 7.30 4 11.6 10.5 8.1 10.07 5 8.3 7.6 5.5 7.13 6 10.5 9.5 8.1 9.37 Moyennes des essais M=10.28M=10.28 M=9.18M=9.18 M=6.78M=6.78 Nous observons que, globalement, le temps de réponse moyen diminue au fil du temps, passant de 10.28 à 6.78. Pour ces données, chaque rat sert essentiellement de son propre « témoin », car chaque rat est observé de manière répétée à travers les essais. C’est ce qui rend ces données des mesures répétées. Notons qu’il n’y a que 6 rats utilisés dans cette étude. Dans un plan inter-sujets classique, chaque point de données représenterait une observation sur un rat différent, ce qui donnerait ici 18 observations. Pour nos données, la variable dépendante est le temps de réponse en minutes, tandis que la variable indépendante est l’essai. Les données nécessitent une ANOVA à mesures répétées à un facteur. Nous souhaitons évaluer l’hypothèse nulle selon laquelle les moyennes des essais sont égales : Hypothèse nulle : Moyenne de l’essai 1 = Moyenne de l’essai 2 = Moyenne de l’essai 3 Un rejet de l’hypothèse nulle suggérerait qu’il existe une différence entre les essais. L’ANOVA à mesures répétées viole l’hypothèse d’indépendance entre les conditions, et donc une hypothèse supplémentaire est requise pour ces plans : l’hypothèse de sphéricité, que nous évaluerons dans SPSS. La saisie des données dans SPSS est légèrement différente pour une ANOVA à mesures répétées par rapport à un plan inter-sujets classique. Nous entrons les données comme suit : Chaque colonne correspond aux données d’un essai. Pour analyser ces données, nous procédons comme suit : ANALYSE → MODÈLE LINÉAIRE GÉNÉRAL → MESURES RÉPÉTÉES SPSS affiche par défaut le facteur 1 dans le champ « Nom du facteur intra-sujet ». Nous le renommons en « trial » et entrons « 3 » dans « Nombre de niveaux », car il y a trois essais. Cliquez sur « Ajouter », ce qui affiche maintenant la variable « trial » dans la boîte (trial(3)). Ensuite, cliquez sur « Définir ».   Déplacez « trial_1 », « trial_2 » et « trial_3 » vers les emplacements respectifs dans la fenêtre « Variables intra-sujets (trial) ». Dans la fenêtre « Graphiques de profil », déplacez « trial » vers l’axe horizontal, puis cliquez sur « Ajouter » pour que « trial » apparaisse dans la fenêtre des graphiques en bas de la boîte. Cliquez sur « Continuer ». Nous obtiendrons également un graphique des moyennes. Sélectionnez Tracés puis deplacer la variable Trial dans Axe horizontal . Enfin, nous obtiendrons une mesure de la taille de l’effet avant de procéder à l’analyse. Sélectionnez Options puis Estimations d’effets de taille. Sélectionnez Moyenne marginale estimée. puis deplacez « trial » vers la fenêtre « Afficher les moyennes pour » et cochez la case « Comparer les effets principaux », avec un ajustement de l’intervalle de confiance égal à LSD (aucun).  Syntaxe générée par SPSS : SPSS confirme d’abord que notre facteur intra-sujets comprend trois niveaux. Ensuite, SPSS fournit les tests multivariés : Une ANOVA à mesures répétées a été réalisée sur « trial » avec trois niveaux. Tous les tests multivariés suggèrent un rejet de l’hypothèse nulle selon laquelle les temps d’apprentissage moyens par essai sont différents dans la population d’où proviennent les données. La trace de Pillai, le lambda de Wilks, la trace de Hotelling et la plus grande racine de Roy étaient tous statistiquement significatifs (p=0.003). Le test de sphéricité de Mauchly a été réalisé pour évaluer l’hypothèse nulle de sphéricité entre les essais. Il n’y a pas suffisamment de preuves pour suggérer une violation de la sphéricité (p=0.076). Les tests univariés de significativité sur le facteur « trial » rejettent l’hypothèse nulle d’absence de différences moyennes entre les essais (p<0.001). Environ 94 % de la variance (ηp2=0.936) des temps d’apprentissage moyens peut être expliquée par « trial ». Le test de Greenhouse-Geisser, plus conservateur et protégeant contre une éventuelle violation de la sphéricité, rejette également l’hypothèse nulle (p<0.001). Les tests multivariés sont un peu plus complexes à interpréter que le F univarié. Nous les détaillerons davantage dans le chapitre sur la MANOVA. Pour faire simple : au lieu de considérer le temps de réponse comme une seule variable dépendante, on le considère comme trois variables (essais 1, 2 et 3), ce qui transforme l’analyse en une ANOVA multivariée. Tous les tests multivariés (trace de Pillai, lambda de Wilks, trace de Hotelling, racine maximale de Roy) indiquent un effet significatif, avec une valeur de p = 0,003. L’eta partielle au carré est de 0,942, indiquant un effet fort des essais sur le temps de réponse. Test de sphéricité de Mauchly Ce test est essentiel en ANOVA à mesures répétées. Ici, p = 0,076, ce qui signifie qu’il n’y a pas de violation significative de l’hypothèse de sphéricité. Tests univariés des effets intra-sujets Nous observons que l’effet du facteur trial est significatif (p < 0,001). L’eta partielle au carré est de 0,936, soit 94 % de la variance du temps de réponse expliquée par les essais. SPSS propose plusieurs corrections (sphéricité supposée, Greenhouse–Geisser, Huynh–Feldt, borne inférieure). Bien que la sphéricité ne soit pas violée ici, la correction de Greenhouse–Geisser est souvent recommandée. Tests de contrastes intra-sujets Les tests indiquent qu’une tendance linéaire explique mieux les différences entre essais (p = 0,000) qu’une tendance quadratique (p = 0,004). Le graphique suivant le confirme : On voit que le temps moyen diminue de manière presque linéaire entre les essais 1 et 3. Effets inter-sujets Ici, aucun facteur inter-sujet n’a été inclus. Toutefois, SPSS désigne la variabilité inter-sujets comme erreur. On peut démontrer cela en incluant manuellement une variable « sujet » comme facteur inter-sujet. Comparaisons par paires Les comparaisons montrent des différences significatives entre tous les essais (p < 0,05). Les intervalles

ANOVA à Mesures Répétées à un Facteur dans IBM SPSS Lire la suite »

Analyse de Puissance pour l’Analyse de Variance dans IBM SPSS

Supposons que nous souhaitons estimer la taille d’échantillon pour une ANOVA factorielle inter-sujets 2×2 : Pour obtenir la fenêtre ANOVA permettant d’estimer la puissance et la taille d’échantillon, sélectionnez TESTS → MOYENNES → PLUSIEURS GROUPES : ANOVA (Effets principaux et interactions (deux variables indépendantes ou plus)). Ci-dessous, nous estimons la taille d’échantillon pour une taille d’effet de f=0,25, à un seuil de significativité de 0,05, avec une puissance de 0,95. Chaque variable indépendante a deux niveaux, donc les degrés de liberté du numérateur, qui représentent le croisement des facteurs, sont égaux à 1 (c’est-à-dire (2−1)(2−1)(2−1)(2−1)). Le nombre de groupes est égal au nombre de cellules dans le design de l’interaction d’ordre le plus élevé, soit 4 (c’est-à-dire 2×2). Nous pouvons voir que dans ces conditions, la taille d’échantillon totale requise est de N=210, ce qui signifie 210/4 par groupe (soit 52,5, que nous arrondissons à 53 par groupe). Remarque : Le nombre de groupes correspond au nombre de cellules générées par le terme d’interaction d’ordre le plus élevé dans le modèle. Si nous avions un troisième facteur, par exemple, avec trois niveaux, le nombre de groupes aurait été égal à 2×2×3=12. Et si nous étions toujours intéressés uniquement par l’interaction 2×2, les degrés de liberté du numérateur seraient toujours égaux à 1. Une analyse de puissance a été réalisée pour estimer la taille d’échantillon requise pour une ANOVA factorielle 2×2 avec une taille d’effet de f=0,25 (effet de taille moyenne), un seuil de significativité de 0,05 et une puissance de 0,95. La taille d’échantillon totale estimée pour détecter cet effet est de N=210.

Analyse de Puissance pour l’Analyse de Variance dans IBM SPSS Lire la suite »

Analyse de la Covariance (ANCOVA) dans IBM SPSS

Il arrive parfois que, lors de la planification d’une ANOVA pour nos données, nous ayons une ou plusieurs variables que nous souhaitons garder constantes ou éliminer de la relation qui nous intéresse. Autrement dit, nous aimerions réaliser une ANOVA classique tout en incluant une ou plusieurs covariables dans le modèle. La technique idéale pour cela est l’Analyse de la Covariance (ANCOVA). La covariable est généralement une variable à distribution continue que l’on inclut dans l’ANOVA. L’intérêt principal d’ajouter des covariables dans un modèle est d’espérer obtenir un test plus puissant de l’effet d’intérêt (c.-à-d. la variable indépendante) en permettant à la covariable d’absorber une partie du terme d’erreur.  Exemple d’une ANCOVA : Nous allons à nouveau utiliser les données sur le QI. Cette fois, nous voulons voir s’il existe des différences entre les groupes sur la variable dépendante verbal, tout en incluant quantitatif comme covariable : ANALYSE → MODÈLE LINÉAIRE GÉNÉRAL → UNIVARIÉ Pour effectuer l’ANCOVA dans SPSS : Déplacez verbal dans la boîte  Variable dependente Déplacez groupe dans la boîte Facteur(s) Fixes Déplacez quantitatif dans la boîte Covariable(s)   Hypothèse d’Homogénéité des Pentes de Régression L’ANCOVA suppose toutes les hypothèses classiques de l’ANOVA, mais nous devons également supposer l’absence d’interaction entre la covariable et la variable indépendante. C’est-à-dire que, pour chaque niveau de la variable indépendante, la régression de la variable dépendante sur la covariable doit être linéaire et approximativement identique On peut évaluer l’existence d’une interaction en incluant le terme d’interaction dans le modèle : Choisissez « Model » Cliquez sur « Termes construits» Ajoutez tous les termes (group, quant, et group*quant) Ou bien exécutez le modèle factoriel complet Appuyez sur “Shift” pour sélectionner group et quant et obtenir le terme d’interaction dans la fenêtre « Model » La valeur p pour l’interaction group*quant est 0.107, ce qui n’est pas significatif, suggérant une absence d’interaction. Donc, l’hypothèse d’homogénéité des pentes de régression est respectée. Résumé : La variable indépendante « groupe » est statistiquement significative (p = 0.011). La covariable « quantitatif » est incluse dans le modèle, mais non significative (p = 0.639). Dans nos données, inclure la covariable a augmenté l’erreur moyenne quadratique, rendant le test moins sensible sur groupe (essayez l’ANOVA avec seulement group comme facteur). Pour plus de détails sur ce phénomène, voir Warner (2013), qui discute également de l’utilisation des somme des carrés de type I vs. type III. La décision sur l’hypothèse nulle pour groupe aurait été la même avec les SS de type I, recommandées par Warner pour l’ANCOVA

Analyse de la Covariance (ANCOVA) dans IBM SPSS Lire la suite »

Effets Principaux Simples dans IBM SPSS

Après avoir obtenu des preuves d’une interaction, une étape logique suivante consiste à « explorer » l’effet d’interaction. Rappelons ce que l’interaction entre enseignement et manuel nous a révélé – elle nous a indiqué que les différences moyennes de manuel n’étaient pas cohérentes à travers les niveaux de enseignement. Eh bien, si elles ne sont pas les mêmes à travers les niveaux de enseignement, une question logique à se poser est : en quoi diffèrent-elles ? Autrement dit, nous aimerions examiner les différences moyennes de manuel à chaque niveau de enseignement. Voici quelques exemples d’effets principaux simples que nous aimerions analyser (à titre d’exemples seulement, nous voudrions probablement en analyser davantage en pratique). Le premier est la différence moyenne de manuel au niveau enseignement = 1, tandis que le second est la différence moyenne de manuel au niveau enseignement = 3  :​ Le graphique de gauche illustre deux effets principaux simples : À enseignement=1 , quelle est la différence moyenne entre les manuels 1 et 2 ? À enseignement = 3, quelle est la différence moyenne entre les manuels et 2 ? Pour calculer les effets principaux simples dans SPSS, nous avons besoin du code suivant : Le code ci-dessus générera la même ANOVA que celle obtenue précédemment (nous ne la reproduisons donc pas ci-dessous), mais, en plus, exécutera les effets principaux simples des comparaisons moyennes de manuel à chaque niveau de enseignement (c’est-à-dire /EMMEANS) : Basé sur les moyennes marginales estimées La différence moyenne est significative au niveau .05. Ajustement pour les comparaisons multiples : Bonferroni. Le tableau de gauche contient les moyennes des cellules comparées. Le tableau de droite contient les comparaisons par paires de manuel à chaque niveau de enseignement, avec un ajustement de Bonferroni pour contrôler l’inflation du taux d’erreur de type I. Ce que le tableau nous dit, c’est qu’à chaque niveau de enseignement, nous avons des preuves de différences de manuel, sauf pour enseignement=4, où les deux moyennes sont exactement les mêmes (92.667), d’où p=1.000. Nous pourrions également calculer les effets principaux simples des différences de enseignement à chaque niveau de manuel en ajustant quelque peu la syntaxe (remarquez COMPARE (enseignement) au lieu de COMPARE (manuel) sur la ligne /EMMEANS) : Analyse de Variance : Effets Fixes et Aléatoires Basé sur les moyennes marginales estimées La différence moyenne est significative au niveau .05. b. Ajustement pour les comparaisons multiples : Bonferroni. Quelques observations basées sur ces effets simples : À manuel = 1, toutes les différences par paires de enseignement sont statistiquement significatives, sauf enseignement=1 vs. enseignement = 2 (p=1.000). À manuel = 2, il n’y a aucune preuve de différences moyennes entre enseignement=1 et enseignement=2, ni entre enseignement=1 et enseignement=3. Nous interprétons les effets simples restants de manière analogue. Les effets principaux simples ont été réalisés pour décomposer l’interaction entre enseignant et manuel. Des différences entre enseignants ont été trouvées à manuel 1, sauf pour enseignement 1 vs. enseignement 2, tandis que les enseignants 1 et 4, 2 et 4, et 3 et 4 ont été trouvés différents à manuel 2.

Effets Principaux Simples dans IBM SPSS Lire la suite »

ANOVA Factorielle à Effets Fixes et Interactions dans IBM SPSS

Rappelons que dans une ANOVA à un facteur à effets fixes, il n’y a qu’une seule variable indépendante, et donc nous ne pouvons tirer de conclusions que sur les différences de moyennes dans la population selon cette seule variable. Cependant, il arrive souvent que nous souhaitions considérer plus d’une variable à la fois. Cela nous permet d’émettre des hypothèses non seulement sur les effets principaux (c’est-à-dire l’effet d’un seul facteur sur la variable dépendante) mais aussi sur les interactions. Qu’est-ce qu’une interaction ? Une interaction est l’effet d’une variable indépendante sur la variable dépendante, mais dont l’effet n’est pas constant selon les niveaux d’une autre variable indépendante dans le modèle. Un exemple aidera à illustrer la nature d’une interaction. Exemple d’ANOVA factorielle Supposons qu’au lieu d’étudier simplement l’effet de l’enseignant sur la réussite, nous souhaitions ajouter une deuxième variable indépendante, à savoir le manuel utilisé. Notre hypothèse globale serait donc que l’enseignant et le manuel ont un effet sur les scores de réussite. Nos données apparaissent maintenant comme suit : Lorsque nous élargissons notre fichier de données SPSS, nos données ressemblent à ceci : Lancer l’ANOVA factorielle dans SPSS Pour exécuter l’ANOVA factorielle dans SPSS : ANALYSE → MODÈLE LINÉAIRE GÉNÉRAL → UNIVARIÉ Nous plaçons score dans la boîte de la variable dépendante comme d’habitude, puis enseignant et manuel dans la boîte facteurs fixes (à gauche). Dans l’onglet Options,dans  Affichage, et nous cochons  Estimation de la taille de l’effet et Test d’homogénéité. Syntaxe SPSS Voici la syntaxe générée par SPSS :  SPSS confirme qu’il y a 6 observations dans chaque niveau d’enseignant et 12 dans chaque groupe de manuel. Le test de Levene sur l’égalité des variances ne rejette pas l’hypothèse nulle, donc nous n’avons pas de raison de douter que les variances soient égales. Résultats principaux de l’ANOVA Les effets sont les suivants : Effet principal de l’enseignant : significatif (p = 0,000) Effet principal du manuel : non significatif (p = 0,231) Effet d’interaction enseignant*manuel : significatif (p = 0,000) Test de Levene Analyse des tailles d’effet Rappel : l’Eta² partiel est similaire à l’Eta², mais il exclut les autres sources de variance dans le dénominateur. Il est donc généralement plus élevé que l’Eta². Formule : Exemple pour enseignant :   Graphique de l’interaction Résumé de l’analyse   Une ANOVA factorielle à deux facteurs à effets fixes a été réalisée sur les données de réussite pour déterminer s’il existait des différences moyennes selon l’enseignant et le manuel, ainsi qu’une interaction entre les deux facteurs. Effet principal significatif de l’enseignant (p < 0,001) Interaction significative entre enseignant et manuel (p < 0,001) Aucun effet significatif du manuel seul (p = 0,231) Observations sur le graphique d’interaction L’effet d’interaction est évident : les différences de moyennes selon le manuel ne sont pas constantes selon l’enseignant. Pour enseignant = 1, la moyenne est plus élevée pour manuel = 2. Pour enseignant = 2, même tendance mais les deux moyennes augmentent. Pour enseignant = 3, inversion : manuel = 1 donne une moyenne bien plus élevée. Pour enseignant = 4, pas de différence notable entre les manuels.

ANOVA Factorielle à Effets Fixes et Interactions dans IBM SPSS Lire la suite »

ANOVA à effets aléatoires dans IBM SPSS

Il y a des moments où nous souhaitons généraliser nos résultats non seulement à ces enseignants utilisés dans l’expérience, mais aussi à l’ensemble des enseignants, qu’ils soient présents dans notre échantillon ou absents. Dans ce modèle, les enseignants étudiés sont considérés comme un échantillon aléatoire de tous les enseignants qui auraient pu être sélectionnés. Ce modèle est appelé modèle à effets aléatoires, puisque le facteur d’intérêt (ici, les enseignants) est considéré comme un échantillon aléatoire de tous les enseignants que nous aurions pu utiliser pour représenter les niveaux de la variable indépendante. Les hypothèses nulles dans une ANOVA à effets aléatoires ne concernent pas réellement les différences de moyennes de la même manière que dans un modèle à effets fixes, mais plutôt les variances. Pourquoi cela ? Parce que, littéralement, nous ne cherchons pas à estimer des différences de moyennes dans une population particulière. Ce qui nous intéresse, c’est de mesurer dans quelle mesure la variance de la variable dépendante peut être expliquée par les niveaux de la variable indépendante, qu’ils soient échantillonnés ou non. Dans une ANOVA à effets aléatoires à un facteur, notre hypothèse nulle est formulée comme suit : H₀ : σ²A = 0 Et l’hypothèse alternative : H₁ : σ²A > 0 Les hypothèses dans l’ANOVA  à effets aléatoires sont les mêmes que pour les effets fixes. Cependant, on suppose en plus que l’effet aléatoire est tiré d’une distribution normale. Pour exécuter une ANOVA à effets aléatoires dans SPSS, suivez les étapes suivantes : ANALYSE → MODÈLE LINÉAIRE GÉNÉRAL → COMPOSANTES DE LA VARIANCE Déplacez nc dans la case Variable dépendante (comme dans une ANOVA à effets fixes), mais au lieu de déplacer enseignement dans Facteurs fixes, placez-le dans Facteurs aléatoires. Ensuite, cliquez sur Options : ● Il est nécessaire de choisir une méthode d’estimation des paramètres pour le modèle à effets aléatoires.  ● Pour nos besoins, sélectionnez Maximum de vraisemblance restreint (REML), qui est souvent considéré comme l’estimateur de choix pour ce type de modèle. ● C’est la seule case à cocher ; vous pouvez laisser les autres paramètres par défaut. Cliquez sur Continuer. Après exécution du modèle, on obtient la syntaxe suivante :   SPSS nous confirme qu’il y a six observations dans chaque groupe d’enseignants. Voici comment interpréter les estimations de variance : ● La variance due à enseignement est de 94,867. Cela représente la variance due aux différents niveaux du facteur enseignant – qu’ils soient présents dans notre expérience ou dans la population. Rappelons que dans une ANOVA à effets aléatoires, les niveaux de facteur dans notre expérience sont un échantillon aléatoire des niveaux possibles. ● La variance d’erreur est de 18,842, soit la variance non expliquée par le modèle. Ces composantes de variance ne sont pas encore des proportions. Pour obtenir la proportion de variance expliquée par enseignement, on divise la variance associée à teach par la somme des deux composantes de variance : C’est-à-dire qu’environ 83 % de la variance des scores de performance peut être attribuée aux niveaux de enseignement, qu’ils soient dans l’échantillon ou dans la population. Si ces données étaient réelles, ce serait très impressionnant car cela suggère que le fait de changer d’enseignant pourrait entraîner une grande variation dans la performance. Ce qui précède constitue seulement une introduction aux modèles à effets aléatoires, une simple démonstration pour montrer leur fonctionnement et comment effectuer une ANOVA à un facteur avec effets aléatoires. Pour plus de détails, Hays (1994) constitue une excellente référence. Une ANOVA à effets aléatoires à un facteur a été menée sur les données de performance pour tester l’hypothèse nulle selon laquelle la variance due aux enseignants est égale à 0. Il a été constaté qu’environ 83 % de la variance dans les scores de performance peut être attribuée aux différences entre enseignants, que ceux-ci aient été échantillonnés dans l’expérience ou proviennent de la population.

ANOVA à effets aléatoires dans IBM SPSS Lire la suite »