SPSS

Données

Analyse

Graphiques

Utilitaires

Transformation

Extensiosn

SPSS

Exemple de MANOVA dans IBM SPSS

Nous considérons les données fournies par Anderson (2003, p. 345) sur des crânes égyptiens. Dans cette analyse, il a été émis l’hypothèse que la taille du crâne est fonction de la période temporelle, également appelée « époque ». La taille du crâne est définie par quatre variables : mb (largeur maximale du crâne) bh (hauteur basi-brégmatique du crâne) bl (longueur basio-alvéolaire du crâne) nh (hauteur nasale du crâne) Notez que ci-dessus nous avons abrégé nos variables comme nous les entrerons dans SPSS. C’est-à-dire que « mb » signifie « largeur maximale du crâne », « bh » signifie « hauteur basi-brégmatique du crâne », etc. Dans une ANOVA classique, nous pourrions analyser chacune de ces variables dépendantes séparément. Cependant, dans une MANOVA, nous choisissons de les analyser simultanément comme une combinaison linéaire du type : mb + bh + bl + nh. L’époque, la variable indépendante, a cinq niveaux : c4000BC, c3300BC, c1850BC, c200BC et cAD150. Ainsi, notre énoncé de fonction pour la MANOVA ressemble à ceci : mb + bh + bl + nh en fonction de l’eˊpoque (cinq niveaux). Encore une fois, notez qu’il s’agit d’une MANOVA parce que nous avons plus d’une variable dépendante et que nous analysons ces variables simultanément. Rappelons qu’en théorie, nous pourrions simplement calculer quatre ANOVA univariées différentes qui considèrent chaque variable dépendante séparément dans chaque analyse. C’est-à-dire que nous aurions pu formuler quatre énoncés de fonction différents : mb en fonction de l’eˊpoque.mb en fonction de l’eˊpoque.bh en fonction de l’eˊpoque.bh en fonction de l’eˊpoque.bl en fonction de l’eˊpoque.bl en fonction de l’eˊpoque.nh en fonction de l’eˊpoque.nh en fonction de l’eˊpoque. Alors, pourquoi se donner la peine de calculer une MANOVA au lieu de plusieurs ANOVA ? Il y a deux raisons principales pour potentiellement préférer la MANOVA – la première est substantielle, et la seconde est statistique : Premièrement, nous nous intéressons à l’analyse de quelque chose appelé « taille du crâne », qui est un concept multidimensionnel composé de mb, bh, bl et nh. C’est pourquoi il est logique dans ce cas de « combiner » toutes ces variables dépendantes en une somme. Si cela n’avait pas eu de sens théorique, alors effectuer une MANOVA n’aurait pas non plus eu beaucoup de sens. Par exemple, effectuer une MANOVA sur la combinaison linéaire suivante n’aurait aucun sens : mb + bh + bl + pizza préférée en fonction de l’époque. La MANOVA n’a pas de sens dans ce cas parce que « pizza préférée » n’appartient tout simplement pas substantivement à la combinaison linéaire. C’est-à-dire que mb + bh + bl + pizza préférée n’est plus « taille du crâne » ; c’est autre chose (on ne sait pas trop quoi !). Le point important ici est que si vous envisagez de faire une MANOVA, c’est parce que vous avez plusieurs variables dépendantes à votre disposition qui, considérées comme une somme linéaire, ont du sens. Si cela n’a pas de sens, alors la MANOVA n’est pas quelque chose que vous devriez faire. Respectez la règle suivante : Vous ne devriez pas faire une MANOVA simplement parce que vous avez plusieurs variables dépendantes à votre disposition pour l’analyse. Vous devriez faire une MANOVA parce que théoriquement, il est logique d’analyser plusieurs variables dépendantes en même temps. La deuxième raison pour laquelle la MANOVA peut être préférée à plusieurs ANOVA séparées est de contrôler le taux d’erreur de type I. Rappelons que dans tout test statistique unique, il y a un taux d’erreur de type I, souvent fixé à 0,05. Chaque fois que nous rejetons une hypothèse nulle, nous le faisons avec la possibilité que nous puissions nous tromper. Cette possibilité est généralement fixée à 0,05. Eh bien, lorsque nous effectuons plusieurs tests statistiques, ce taux d’erreur se cumule et est approximativement additif (ce n’est pas tout à fait 0,05+0,05+0,05+0,05 dans notre cas, mais à peu près) ; Le point important pour nos besoins est que lorsque nous analysons des variables dépendantes simultanément, nous n’avons qu’un seul taux d’erreur à considérer au lieu de plusieurs comme nous aurions dans le cas de l’ANOVA. Ainsi, lorsque nous analysons la variable dépendante mb + bh + bl + nh, nous pouvons fixer notre niveau de signification à 0,05 et tester notre hypothèse nulle à ce niveau. Donc, en bref, une deuxième raison d’apprécier la MANOVA est qu’elle aide à contrôler l’inflation du taux d’erreur de type I. Cependant (et c’est important !), si la condition 1 ci-dessus n’est pas d’abord satisfaite, c’est-à-dire s’il n’a pas de sens « substantiel » que vous devriez faire une MANOVA, alors indépendamment du contrôle qu’elle a sur le taux d’erreur de type I, vous ne devriez pas faire de MANOVA ! La MANOVA doit d’abord avoir un sens substantiel du point de vue de la recherche avant que vous ne profitiez de ses avantages statistiques. Encore une fois, votre question de recherche devrait suggérer une MANOVA, pas seulement le nombre de variables dépendantes que vous avez dans votre ensemble de données. Entrés dans SPSS, nos données se présentent comme suit (nous ne listons que 10 cas, tous pour epoch = -4000) : Nous procédons à l’exécution de la MANOVA : ANALYSER → MODÈLE LINÉAIRE GÉNÉRALE → MULTIVARIÉ Nous déplaçons mb, bh, bl et nh vers la boîte Variables Dépendantes. Nous déplaçons epoch vers la boîte Facteur(s) Fixe(s). Si vous aviez une covariable à inclure, vous la déplaceriez vers la boîte Covariable(s). Nous cliquons ensuite sur OK pour exécuter la MANOVA (nous sélectionnerons plus d’options plus tard). SPSS confirme d’abord pour nous qu’il y a N = 30 observations par groupe sur la variable indépendante. Le nombre total d’observations pour l’ensemble des données est de 150. SPSS nous fournit ensuite les Tests Multivariés pour évaluer l’hypothèse nulle qu’il n’y a pas de différences moyennes à travers la combinaison linéaire des variables de réponse : Une discussion de ces tests multivariés et de leur fonctionnement peut facilement prendre plusieurs pages et implique des matrices et des déterminants. Rappelons que dans l’ANOVA, nous n’avions généralement qu’un seul test de l’hypothèse nulle omnibus globale du type H0:μ1=μ2=μ3 pour disons un problème de population à trois groupes. Le seul test que nous utilisions pour tester l’effet global était le test F, défini comme F=MS intergroupes/MS intragroupes​ Ce qui fonctionnait bien et était notre seul test de

Exemple de MANOVA dans IBM SPSS Lire la suite »

Puissance pour la Régression Logistique dans IBM SPSS

Nous pouvons facilement estimer la taille d’échantillon nécessaire pour un niveau de puissance donné dans le cadre d’une régression logistique en utilisant G∗PowerG∗Power. La taille de l’effet que nous devons saisir pour estimer la puissance est celle du rapport de cotes, c’est-à-dire le rapport minimal attendu ou souhaité des chances d’être classé dans une catégorie de la variable réponse par rapport à l’autre. À titre d’exemple, supposons que nous calculions la taille d’échantillon souhaitée pour un rapport de cotes de 1,0, ce qui signifie essentiellement aucun effet (puisqu’il implique que les chances d’être classé dans l’un des deux groupes mutuellement exclusifs ne sont pas plus grandes que les chances d’être classé dans l’autre) : Tests → Corrélation et régression → Régression logistique : Pour un rapport de cotes de 1,0, nous voyons que la taille d’échantillon et la puissance ne peuvent pas être calculées (ce qui génère des messages d’erreur). Cela est dû au fait que nous avons essentiellement spécifié un effet nul. Supposons maintenant que nous spécifiions un rapport de cotes de 1,5. Pour un rapport de cotes de 1,5 et une puissance souhaitée de 0,95, nous pouvons voir que la taille d’échantillon estimée est égale à 337. Augmenter la valeur du R2R2 des autres X dans le modèle aura pour effet d’augmenter la taille totale de l’échantillon nécessaire pour détecter le même effet. Cette estimation est basée sur le prédicteur étant normalement distribué avec une moyenne de 0 et un écart-type de 1.

Puissance pour la Régression Logistique dans IBM SPSS Lire la suite »

Exemple de régression logistique dans IBM SPSS

Considérons les données suivantes tirées de Denis (2016) : Données hypothétiques sur les capacités quantitatives et verbales pour ceux recevant une formation (Groupe = 1) versus ceux ne recevant pas de formation (Groupe = 0) Sujet Quantitatif Verbal Groupe de formation 1 5 2 0 2 2 1 0 3 6 3 0 4 9 7 0 5 8 9 0 6 7 8 1 7 9 8 1 8 10 10 1 9 10 9 1 10 9 8 1 Ces données comprennent des scores quantitatifs et verbaux pour 10 participants, dont la moitié a suivi un programme de formation (codé 1), tandis que l’autre moitié ne l’a pas suivi (codé 0). Nous souhaitons savoir si les scores quantitatifs et verbaux permettent de prédire à quel groupe de formation un participant appartient. Notre variable réponse est le groupe de formation (T), tandis que nos prédicteurs sont les scores quantitatifs (Q) et verbaux (V).  Nous entrons les données dans SPSS comme suit : Pour effectuer la régression logistique dans SPSS, nous sélectionnons : ANALYSE → RÉGRESSION → LOGISTIQUE BINAIRE Nous déplaçons Q dans la boîte des covariables et T dans la boîte des variables dépendantes. Nous nous assurons que la méthode « EntreZ » est sélectionnée. Cliquez sur OK pour exécuter la procédure. Nous sélectionnerons plus d’options plus tard. Pour l’instant, nous exécutons l’analyse pour voir les principaux coefficients de sortie de la régression logistique et discutons de leur interprétation différente par rapport à celle de la régression des moindres carrés ordinaires : Nous ignorons le terme constant et passons directement à l’interprétation de l’effet pour Q. Notez que la valeur de B est égale à 0,967 et n’est pas statistiquement significative (p = 0,120). Pour l’instant, nous nous intéressons surtout à discuter de son interprétation et de sa différence par rapport aux coefficients de la régression des moindres carrés ordinaires. Rappelons comment nous interpréterions B = 0,967 dans un problème de régression ordinaire : Pour une augmentation d’une unité de Q, nous nous attendrions, en moyenne, à une augmentation de 0,967 unité de la variable dépendante. Cette interprétation est incorrecte pour une régression logistique, car notre variable dépendante n’est pas une variable continue. Elle est binaire. Il n’a guère de sens de dire que nous nous attendons à une augmentation de 0,967 d’une variable dépendante lorsque cette variable ne peut prendre que deux valeurs : formation = 1 vs formation = 0. Nous devons interpréter le coefficient différemment. Dans la régression logistique, le coefficient 0,967 est en réalité exprimé en unités de quelque chose appelé le logit, qui est le log des cotes. Qu’est-ce que cela signifie ? Nous le découvrirons dans un instant. Pour l’instant, il suffit de savoir que l’interprétation correcte du coefficient est la suivante : Pour une augmentation d’une unité de Q, nous nous attendrions, en moyenne, à une augmentation de 0,967 unité du logit de la réponse. Cette interprétation, bien que correcte, a peu de sens intuitif car les « logits » sont difficiles à interpréter seuls. Comme mentionné, les logits sont le log des cotes (généralement le log naturel, ln, c’est-à-dire en base e), où les cotes d’un événement sont définies comme le rapport entre la probabilité que l’événement se produise et 1 moins cette probabilité : cotes = p/(1-p) Prendre le log naturel transforme les cotes en quelque chose d’approximativement linéaire, ce qui est le logit mentionné précédemment. Les logits sont malaisés à interpréter, mais heureusement, nous pouvons les retransformer en cotes par une simple transformation qui consiste à exponencier le logit comme suit : Dans cette transformation, le nombre 0,967 est le coefficient du logit obtenu à partir de la régression logistique, et l’exposant p sur 1-p représente les cotes. Ainsi, le log naturel des cotes est la partie ln(p/1-p). Lorsque nous exponencions ce coefficient en base e, qui est la fonction exponentielle égale à environ 2,718, nous retrouvons les cotes, et le nombre 2,63 s’interprète comme suit : Pour une augmentation d’une unité de Q, les cotes d’être dans le groupe 1 par rapport au groupe 0 sont, comme attendu, de 2,63 contre 1. Que signifie cela ? Si Q n’avait aucun effet, alors pour une augmentation d’une unité de Q, les cotes d’être dans le groupe 1 par rapport au groupe 0 seraient de 1 contre 1, et nous obtiendrions un logit de 0. Le fait qu’elles soient de 2,63 contre 1 signifie qu’à mesure que Q augmente d’une unité, la chance d’être dans le groupe 1 par rapport au groupe 0 est également plus grande. Le nombre 2,63 dans ce contexte est souvent appelé rapport de cotes. Si les cotes avaient été inférieures à 1 contre 1, alors une augmentation de Q suggérerait une diminution de la chance d’être dans le groupe 1 par rapport au groupe 0. Comme les cotes sont centrées sur 1,0, nous pouvons également interpréter le nombre 2,63 de la manière équivalente suivante : Pour une augmentation d’une unité de Q, les cotes sont, comme attendu, 2,63 fois plus grandes d’être dans le groupe 1 par rapport au groupe 0, ce qui se traduit par une augmentation de 163 %. Autrement dit, une augmentation d’une unité de Q multiplie les cotes d’être dans le groupe 1 par 2,63. Pour référence, des cotes de 2 représenteraient une augmentation de 100 % (puisque 2 est le double de 1). Mais comme les logits, les cotes sont difficiles à interpréter (sauf si vous êtes un parieur ou que vous misez sur des courses de chevaux !). Heureusement encore, nous pouvons transformer les cotes d’abord en un logit prédit, puis l’utiliser pour transformer cela en une probabilité, ce qui est beaucoup plus intuitif pour la plupart d’entre nous. À titre d’exemple, calculons d’abord le logit prédit yi‘ pour quelqu’un ayant un score de 5 en quantitatif. Rappelons que la constante dans notre sortie SPSS était égale à -7,647, donc notre équation estimée pour prédire le logit de quelqu’un ayant un score de 5 en quantitatif est la suivante : yi‘ =

Exemple de régression logistique dans IBM SPSS Lire la suite »

Détection des valeurs aberrantes multivariées et des observations influentes dans IBM SPSS

Le domaine de la vérification des hypothèses et de la détection des valeurs aberrantes est vaste. Les experts consacrent leur carrière à développer de nouvelles méthodes pour identifier les observations multivariées éloignées des autres. La théorie sous-jacente est très complexe (pour plus de détails, voir Fox (2016)). Pour nos besoins, nous allons directement à l’essentiel et fournissons des directives immédiates pour détecter les observations qui pourraient avoir une influence importante sur le modèle de régression ou qui sont multivariées « anormales » au point d’être considérées comme des valeurs aberrantes. Nous utilisons le terme « influence importante » dans notre contexte uniquement pour indiquer les observations qui pourraient, en général, avoir un « effet » significatif sur les estimations des paramètres du modèle. Dans des traitements plus théoriques des diagnostics de régression, des définitions précises sont données pour diverses manières dont les observations peuvent exercer une influence ou avoir un impact. Nous allons demander à SPSS les distances de Mahalanobis, les valeurs de Cook’s d et les leviers : ANALYSE → REGRESSION → LINEARE → ENREGISTRER Une fois dans l’option ENREGISTRER, cochez Mahalanobis, Cook et les valeurs influentes. Le résultat de ces sélections est affiché dans la vue des données : Pour des raisons pratiques, voici les règles empiriques à connaître : Mahalanobis (MAH_1) : les valeurs sont considérées comme « élevées » si elles dépassent une valeur critique calculée à partir d’une distribution d’échantillonnage du Chi-degrés de liberté égaux au nombre de prédicteurs. Pour nos données, avec trois prédicteurs à 0.05, cette valeur est de 7.82 (16.27 si vous utilisez 0.001). Bien que l’observation 2 dans nos données (MAH_1 = 6.00118) soit relativement élevée, elle ne remplit pas les critères pour être considérée comme une valeur aberrante multivariée. Cook’s d (COO_1) : des valeurs supérieures à 1.0 peuvent suggérer que l’observation exerce une influence assez forte sur les coefficients de régression estimés. Les seuils exacts ne sont pas obligatoires – recherchez les valeurs qui se distinguent des autres. Cook’s d nous donne une mesure de l’impact d’une observation donnée sur la solution finale, en évaluant dans quelle mesure les résultats changeraient si l’analyse était refaite sans cette observation. Leviers (LEV_1) : ce sont les valeurs de levier. Les valeurs de levier supérieures à deux fois la moyenne peuvent être préoccupantes. Pour nos données, la moyenne est de 0.3 (vérifiez avec DESCRIPTIVES), donc le seuil général est de 0.6 (c’est-à-dire 2 fois 0.3), ce que l’observation 2 dépasse. Le levier est une mesure de l’écart d’une observation par rapport à la moyenne des prédicteurs. Les seuils ne font pas l’objet d’un consensus .

Détection des valeurs aberrantes multivariées et des observations influentes dans IBM SPSS Lire la suite »

Résidus et Graphiques de Résidus : Évaluation des Hypothèses dans IBM SPSS

L’une des hypothèses de l’analyse de régression, qu’il s’agisse de régression linéaire simple ou multiple, est que les erreurs sont normalement distribuées. Pour examiner si cette hypothèse est au moins provisoirement satisfaite, nous pouvons effectuer des analyses des résidus sur notre modèle ajusté utilisant les variables AGE, PRETHERAPY et N_THERAPY pour prédire GAF. Un graphique de base des résidus pour le modèle peut être facilement obtenu en ouvrant la fenêtre ENREGISTRER(ANALYSE-REGRESSION-LINEAIRE-ENREGISTRER) dans la boîte de régression linéaire et en sélectionnant parmi plusieurs types de résidus : Lorsque nous ouvrons l’onglet SAVE, pour obtenir les résidus non standardisés, sélectionnez « Residuels (non standardisées) ». Typiquement, vous feriez cette sélection lors de la première analyse de régression, mais dans notre cas, nous avons choisi de le faire après coup car nous voulions d’abord interpréter les paramètres de notre modèle. Les résidus calculés apparaîtront dans la vue des données : La colonne RES1 à droite ci-dessus contient les résidus calculés à partir de la régression. Vous pouvez vérifier que la somme des résidus est égale à 0. Ensuite, en utilisant EXPLORER(ANALYSE-STATISTIQUES DESCRIPTIVES-EXPLORER), déplacez « Unstandardized Residuals » vers la liste des dépendantes cliquez sur OK : Nous notons les éléments suivants : La moyenne des résidus non standardisés est égale à 0. C’est une nécessité, car les résidus représentent des écarts autour des valeurs prédites. L’écart-type de 7,262 est l’écart-type des résidus mais avec le dénominateur habituel n−1n−1. Par conséquent, il ne sera pas égal à l’erreur standard de l’estimation de 8,89 discutée précédemment dans le résumé du modèle, car cette estimation a été calculée comme la racine carrée de la somme des écarts carrés au numérateur divisée par 6 (c’est-à-dire n−k−1=10−3−1=6) pour notre modèle. Autrement dit, nous avons perdu k+1 degrés de liberté lors du calcul de l’écart-type des résidus pour notre modèle. La valeur de 7,26 présentée ci-dessus est l’écart-type des résidus avec seulement un degré de liberté perdu au dénominateur. Nous pouvons voir à partir de la mesure d’asymétrie, égale à 0,001, que la normalité des résidus ne devrait pas poser problème (mais nous devrons tout de même les représenter graphiquement pour en être sûrs, car une asymétrie nulle peut également se produire dans des distributions bimodales). Le graphique des résidus apparaît ci-dessous (un diagramme tige-feuille, un boxplot et un graphique Q-Q sont fournis). Bien que calculés sur un très petit échantillon, tous les graphiques ne nous donnent aucune raison de douter sérieusement que les résidus sont au moins approximativement normalement distribués (ces distributions sont plus rectangulaires que normales, mais avec un si petit échantillon dans notre cas, ce n’est pas suffisant pour rejeter les hypothèses de normalité – rappelez-vous, la vérification des hypothèses dans les modèles statistiques n’est pas une science exacte, surtout avec seulement 10 observations). ANALYSER → STATISTIQUES DESCRIPTIVES → EXPLORER → TRACER Les résidus non standardisés ont été examinés pour vérifier qu’ils sont au moins approximativement normalement distribués. Tous les graphiques suggèrent une distribution au moins approximativement normale, et les hypothèses nulles des tests de Kolmogorov-Smirnov et Shapiro-Wilk n’ont pas été rejetées, ce qui ne nous donne aucune raison de rejeter l’hypothèse.

Résidus et Graphiques de Résidus : Évaluation des Hypothèses dans IBM SPSS Lire la suite »

Interactions dans la Régression Multiple dans IBM SPSS

Rappelons que dans l’ANOVA factorielle, une interaction était définie comme l’effet d’une variable indépendante qui n’est pas cohérent à travers les niveaux d’une autre variable indépendante. Et comme nous l’avons vu dans le chapitre 7, si nous avons des preuves d’une interaction, il est généralement approprié de poursuivre avec des effets principaux simples. Ces interactions impliquaient des variables indépendantes qui étaient, bien sûr, catégorielles. Dans la régression multiple, comme nous l’avons vu, nous avons généralement des variables continues comme prédicteurs, donc à première vue, il peut sembler que les interactions ne soient pas réalisables ou possibles. Cependant, cette vision est erronée. Les interactions sont réalisables dans la régression multiple, mais nous devons faire attention à la manière dont nous les abordons, ainsi qu’à leur interprétation. Comme exemple d’interaction dans la régression multiple, nous considérons une fois de plus nos données GAF, en nous concentrant à nouveau sur les prédicteurs AGE et PRETHERAPY dans leur prédiction de GAF. Supposons que nous posions la question suivante : La prédiction de GAF à partir de AGE dépend-elle du degré de PRETHERAPY ? Cette question nous invite à tester l’interaction pour AGE*PRETHERAPY. Pour ce faire, nous devons produire un terme produit en multipliant AGE par PRETHERAPY : TRANSFORMER → CALCULER UNE VARIABLE Sous Variable Cible, entrez « AGE_PRETHERAPY ». Sous Expression Numérique, produisez le terme produit AGE*PRETHERAPY. Cliquez sur OK. Nous voyons que SPSS a créé une nouvelle variable appelée « AGE_PRETHERAPY » en multipliant les valeurs de AGE par PRETHERAPY. Par exemple, pour le cas 1, la valeur de 1092.00 a été calculée par 21.00 * 52.00 = 1092. Maintenant, pour tester le terme d’interaction, nous incluons tous les effets dans le modèle (pas seulement le terme d’interaction), à la fois les « effets principaux » de AGE et PRETHERAPY ainsi que le nouveau terme produit : Les pentes simples dans la régression sont similaires dans l’esprit aux effets principaux simples dans l’ANOVA et permettent de décomposer la nature de l’interaction et de l’explorer un peu. L’interaction, dans ce cas, n’est pas statistiquement significative (p = 0.821). Si le terme d’interaction avait été significatif, cela aurait suggéré que l’effet de AGE sur GAF change en fonction de PRETHERAPY, et de même, l’effet de PRETHERAPY sur GAF change en fonction de AGE. C’est-à-dire que l’effet d’un prédicteur sur la réponse dépend de l’autre. Une régression multiple a été effectuée dans laquelle AGE, PRETHERAPY et l’interaction de AGE et PRETHERAPY étaient supposés prédire GAF. Le terme produit a été généré en multipliant PRETHERAPY par AGE. Aucune preuve d’un effet d’interaction n’a été trouvée (p = 0.821).

Interactions dans la Régression Multiple dans IBM SPSS Lire la suite »

Approches de construction de modèles en régression dans IBM SPSS

Dans la régression multiple abordée jusqu’à présent, nous avons procédé en incluant simultanément tous les prédicteurs dans la régression. Par exemple, pour prédire GAF, nous avons inclus AGE, PRETHERAPY et N_THERAPY en même temps dans notre régression et observé les effets de chaque variable en présence des autres. Cette approche dans SPSS est appelée l’approche d’entrée complète, et elle est activée en sélectionnant « Enter » comme méthode lors de l’exécution de la régression : Lorsque nous souhaitons inclure tous les prédicteurs simultanément dans la régression, nous nous assurons que « EIntroduire » est sélectionné sous « Methode ». Cependant, il arrive que les chercheurs souhaitent utiliser une approche différente de la régression par entrée complète, comme l’ajout ou la suppression de variables une par une après avoir observé l’impact des variables déjà incluses dans le modèle. Dans la régression hiérarchique, le chercheur décide de l’ordre exact dans lequel les variables sont introduites dans le modèle. Par exemple, un chercheur pourrait hypothétiser que AGE est un prédicteur influent et choisir de l’inclure en premier dans le modèle. Ensuite, avec cette variable déjà incluse, il pourrait observer l’effet de PRETHERAPY en plus de celui de AGE (ou en d’autres termes, en maintenant AGE constant). Voici comment procéder : L’effet de AGE seul dans le modèle est statistiquement significatif (p=0.006).  Ensuite, le chercheur ajoute le deuxième prédicteur. Il sélectionne « Suivant » pour construire le deuxième modèle et inclut à la fois AGE et PRETHERAPY (notez que l’interface affiche maintenant « Block 2 of 2 »). Voici un extrait partiel des résultats : Avec PRETHERAPY inclus dans le modèle, le chercheur peut observer si cette variable est statistiquement significative compte tenu de la présence de AGE, et évaluer directement la contribution de PRETHERAPY. La valeur pp de 0.058 pour PRETHERAPY reflète son importance après l’inclusion de AGE. Il ne s’agit pas de la valeur pp pour PRETHERAPY seule. Notons également que nous construisons simplement différents modèles de régression. Le modèle 1 ou le modèle 2 pourraient être considérés comme des modèles « d’entrée complète » s’ils étaient exécutés séparément. Cependant, l’objectif de la régression hiérarchique est de permettre au chercheur de choisir l’ordre d’inclusion des variables en fonction de sa théorie substantielle. Vous pourriez penser à ce stade : « Cela ressemble beaucoup à l’exemple de médiation que nous étudierons plus tard dans ce chapitre », et vous auriez raison. L’analyse de médiation utilise essentiellement cette approche hiérarchique pour établir ses preuves. L’analyse de médiation n’est pas « équivalente » à la régression hiérarchique, mais elle emploie une approche hiérarchique pour vérifier si le chemin original (dans nos données, ce chemin sera AGE prédictif de GAF) diminue ou disparaît après l’inclusion de l’hypothétique médiateur (PRETHERAPY). Nous aborderons la médiation sous peu. Résumé des résultats :  Une régression linéaire hiérarchique a été réalisée pour prédire GAF. Le premier prédicteur inclus dans le modèle était l’âge, expliquant environ 63.5% de la variance de GAF (p=0.006p=0.006). À la deuxième étape, PRETHERAPY a été inclus (p=0.058p=0.058), augmentant la variance expliquée par le modèle complet à 79.0%.

Approches de construction de modèles en régression dans IBM SPSS Lire la suite »

Exécution de la régression multiple dans IBM SPSS

Rappelons la nature du modèle que nous souhaitons exécuter. Nous pouvons spécifier l’équation de régression comme suit : GAF=AGE+PRETHERAPY+N_THERAPYGAF=AGE+PRETHERAPY+N_THERAPY Pour exécuter la régression : ANALYSE→REˊGRESSION→LINEˊAIRE.   Nous déplaçons GAF vers la boîte Dépendante (puisque c’est notre variable dépendante ou « réponse »). Nous déplaçons AGE, PRETHERAPY et N_THERAPY vers les variables Indépendante(s) (puisque ce sont nos prédicteurs, les variables que nous souhaitons voir prédire simultanément GAF). Sous la variable Indépendante(s), la Méthode est notée et est actuellement, par défaut, définie sur Introduirr. Cela signifie que SPSS effectuera la régression sur tous les prédicteurs simultanément plutôt que de manière séquentielle (la sélection progressive, la sélection arrière et la sélection pas à pas sont d’autres options pour l’analyse de régression, comme nous le verrons bientôt). Ensuite, nous cliquerons sur la boîte Statistiques et sélectionnerons quelques options : Sous Coefficients de régression, nous avons sélectionné Estimations et Intervalles de confiance (à un niveau de 95 %). Nous avons également sélectionné Qualité de l’ajustement, Variation du R-carré, Descriptives, Mesure et Corrélations partielles et Tests de colinéarité. Sous Résiduels, nous avons sélectionés Diagnostic des observations par Points atypiques et  en dehors de 3 écarts types. Cliquez sur Poursuivre. Nous aurions sélectionné le test de Durbin-Watson si nous avions eu des données chronologiques et souhaitions savoir s’il existait des preuves que les erreurs étaient corrélées. Il y a d’autres options que nous pouvons sélectionner sous Graphiques et Enregistrer dans la fenêtre principale de Régression linéaire, mais comme la plupart de ces informations concernent l’évaluation des résidus, nous reportons cette étape à plus tard, après avoir ajusté le modèle. Pour l’instant, nous voulons obtenir les résultats de notre régression et démontrer l’interprétation des estimations des paramètres. Lorsque nous exécutons la régression multiple, nous obtenons ce qui suit (ci-dessous la syntaxe qui représente les sélections que nous avons faites via l’interface graphique) : À gauche se trouvent certaines des statistiques descriptives que nous avions demandées pour notre régression. Ce sont les mêmes informations que nous aurions obtenues dans notre exploration préliminaire des données. Il est cependant utile de vérifier que N=10 pour chaque variable, sinon cela indiquerait que nous avons des valeurs manquantes ou des données incomplètes. Dans nos résultats, nous voyons que GAF a une moyenne de 28,0, AGE a une moyenne de 26,8, PRETHERAPY a une moyenne de 54,8 et N_THERAPY a une moyenne de 13,2. Les écarts types sont également fournis. SPSS nous fournit également une matrice de coefficients de corrélation de Pearson entre toutes les variables, ainsi que des valeurs pp (Sig. unilatéral) indiquant si elles sont statistiquement significatives. Ayant déjà examiné les relations bivariées générales entre les variables lorsque nous avons tracé les diagrammes de dispersion, cette matrice nous fournit des preuves supplémentaires que les variables sont au moins quelque peu linéairement liées dans l’échantillon. Nous ne nous intéressons pas à la signification statistique des corrélations pour effectuer la régression multiple, et puisque la taille de l’échantillon est assez petite (N=10N=10), il n’est guère surprenant que beaucoup de corrélations ne soient pas statistiquement significatives.  Ensuite, SPSS indique quelles variables ont été entrées dans la régression et lesquelles ont été exclues. Comme nous avons effectué une régression « entrée complète » (rappelons que nous avions sélectionné Entrer sous Méthode), toutes nos variables seront entrées dans la régression simultanément, et aucune ne sera supprimée. Lorsque nous effectuerons des régressions progressives et pas à pas, par exemple, cette boîte Variables supprimées sera un peu plus occupée ! Ci-dessus se trouve le Résumé du modèle pour la régression. Pour un compte rendu relativement détaillé de ce que signifient toutes ces statistiques et de la théorie qui les sous-tend, consultez Denis (2016, chapitres 8 et 9) ou tout livre sur la régression. Nous interprétons chaque statistique ci-dessous : • R de 0,890 représente le coefficient de corrélation multiple entre la variable réponse (GAF) et les trois prédicteurs considérés simultanément (AGE, PRETHERAPY, N_THERAPY). C’est-à-dire que c’est la corrélation entre GAF et une combinaison linéaire de AGE + PRETHERAPY et N_THERAPY. Le R multiple peut varier en valeur de 0 à 1,0 (notez qu’il ne peut pas être négatif, contrairement au r de Pearson ordinaire sur deux variables qui varie de −1,0−1,0 à +1,0+1,0). R-carré est le carré du coefficient de corrélation multiple (appelé coefficient de détermination multiple) et représente la proportion de variance dans la variable réponse expliquée par la connaissance simultanée des prédicteurs. C’est-à-dire que c’est la proportion de variance expliquée par le modèle, le modèle étant la régression de GAF sur la combinaison linéaire de AGE + PRETHERAPY et N_THERAPY. R-carré ajusté est une version alternative du R-carré et est plus petit que le R-carré (rappelons que nous avions discuté du R-carré ajusté plus tôt dans le contexte de la régression linéaire simple). Le R-carré ajusté prend en compte le nombre de paramètres ajustés au modèle par rapport à leur contribution à l’ajustement du modèle. Erreur standard de l’estimation est l’écart type des résidus pour le modèle (avec des degrés de liberté différents de l’écart type typique). Une valeur très faible ici indiquerait que le modèle s’ajuste assez bien, et une valeur très élevée suggérerait que le modèle ne fournit pas un très bon ajustement aux données. Lorsque nous interpréterons le tableau ANOVA pour la régression sous peu, nous discuterons de son carré, qui est la Variance de l’estimation. Ensuite, SPSS rapporte les « Statistiques de changement ». Celles-ci sont plus applicables lorsque nous effectuons des régressions hiérarchiques, progressives ou pas à pas. Lorsque nous ajoutons des prédicteurs à un modèle, nous nous attendons à ce que le R-carré augmente. Ces statistiques de changement nous indiquent si l’incrément du R-carré est statistiquement significatif, ce qui signifie grossièrement que c’est plus qu’un changement que nous attendrions par hasard. Pour nos données, puisque nous avons entré tous les prédicteurs simultanément dans le modèle, le Changement du R-carré est équivalent à la statistique R-carré originale. Le F de changement de 7,582 est la statistique FF associée au modèle, sur les degrés de liberté donnés de 3 et 6, ainsi que la valeur pp de 0,018. Notez que ces informations dupliquent les informations trouvées dans le tableau ANOVA qui sera discuté sous peu. Encore une

Exécution de la régression multiple dans IBM SPSS Lire la suite »

Matrice de dispersion (Scatterplot Matrix) dans IBM SPSS

Étant donné que nous allons ajuster un modèle de régression multiple à ces données, l’aspect le plus important sera de comprendre comment les variables sont liées entre elles dans un contexte multivarié. Évaluer la linéarité multivariée et détecter la présence de valeurs aberrantes dans un tel contexte est complexe. C’est pourquoi des analyses en dimensions réduites sont utiles pour repérer des éléments tels que des valeurs aberrantes ou des violations potentielles de la linéarité (nous nous appuierons également sur des analyses de résidus pour vérifier les hypothèses). Pour cela, nous pouvons créer une matrice de dispersion (scatterplot matrix) de toutes les variables incluses dans l’analyse afin d’observer de manière exploratoire les relations entre elles : GRAPHIQUES → DIALOGUES HÉRITÉS → DISPERSION/POINT Une fois la boîte de dialogue DISPERSION/POINT ouverte, sélectionnez Dispersion des matrice puis cliquez sur Define. Ensuite, déplacez toutes les variables de la gauche vers la zone Variables des matrices. Cela génère la matrice de dispersion affichée à droite : Nous pouvons observer dans cette matrice que toutes les paires de variables partagent au moins une relation approximativement linéaire, sans présence apparente de valeurs aberrantes bivariées. Encore une fois, il est important de souligner que nous ne recherchons pas la « perfection » dans ces graphiques. Nous cherchons simplement des raisons (par exemple, des valeurs aberrantes extrêmes, des tendances étranges s’écartant significativement de la linéarité) qui pourraient nous inciter à retarder la régression multiple et à examiner plus en détail d’éventuelles anomalies dans nos données. Nous devons également souligner à ce stade qu’il existe un nombre infini de graphiques que l’on peut générer pour visualiser et explorer ses données, ainsi que de nombreuses statistiques descriptives supplémentaires via DESCRIPTIVES ou EXPLORE. Ainsi, notre bref examen des graphiques ci-dessus ne signifie pas que vous deviez vous limiter à ces analyses exploratoires. N’hésitez pas à générer autant de graphiques et de visualisations que nécessaire pour bien comprendre vos données – vous pourriez découvrir quelque chose d’inattendu (comme une valeur aberrante lointaine), ce qui pourrait inspirer une nouvelle hypothèse scientifique ou une autre découverte potentielle. Pour notre part, comme notre objectif principal est de vous montrer comment exécuter et interpréter une régression multiple dans SPSS, nous arrêtons ici notre exploration et passons directement à l’analyse de régression multiple.

Matrice de dispersion (Scatterplot Matrix) dans IBM SPSS Lire la suite »

Analyse de régression multiple dans IBM SPSS

Rappelons le modèle de régression multiple évoqué précédemment : yi=α+β1 x1i+β2 x2i+εi. Comme le modèle de régression linéaire simple, le modèle ci-dessus vise à faire des prédictions de la variable réponse, mais cette fois, au lieu d’utiliser uniquement un seul prédicteur xi, nous incluons maintenant un deuxième prédicteur x2. Nous n’avons pas besoin de nous arrêter là ; nous pouvons théoriquement inclure beaucoup plus de prédicteurs, de sorte que la forme générale du modèle devient, pour kk prédicteurs : yi=α+β1 x1i+β2 x2i+.⋯+βk​xki​+ϵi​ Bien que l’objectif de la régression multiple soit le même que celui de la régression simple, c’est-à-dire faire des prédictions de la réponse, traiter plusieurs dimensions simultanément devient beaucoup plus complexe et nécessite des matrices pour illustrer les calculs. Bien que nous utiliserons des matrices plus tard dans le livre lorsque nous aborderons les techniques multivariées, pour l’instant, nous reportons notre discussion à leur sujet et nous concentrons uniquement sur l’interprétation du modèle de régression à travers un exemple. Nous allons maintenant démontrer comment effectuer une analyse de régression multiple complète dans SPSS et comment interpréter les résultats. Nous effectuerons notre régression multiple sur l’ensemble de données fictif suivant, tiré de Petrocelli (2003), dans lequel nous sommes intéressés par la prédiction de l’Évaluation Globale du Fonctionnement (GAF) (des scores plus élevés indiquent un meilleur fonctionnement) basée sur trois prédicteurs : l’âge, le score de dépression avant la thérapie (des scores plus élevés indiquent plus de dépression) et le nombre de séances de thérapie. Nos données dans SPSS se présentent comme suit : Nos variables sont définies comme suit : GAF – Score d’Évaluation Globale du Fonctionnement (des scores plus élevés indiquent un meilleur fonctionnement). AGE – Âge du participant en années. PRETHERAPY – Score de dépression d’un participant avant la thérapie (des scores plus élevés = plus de dépression). N_THERAPY – Nombre de séances de thérapie pour un participant. Il n’y a que 10 cas par variable, mais il est néanmoins utile d’examiner leurs distributions, à la fois de manière univariée (c’est-à-dire pour chaque variable) et bivariée par paires (deux variables à la fois dans des diagrammes de dispersion), à la fois pour avoir une idée de la distribution continue des variables et aussi pour des preuves préliminaires qu’il existe des relations linéaires entre les variables. Bien que les prédicteurs dans la régression puissent représenter des groupements catégoriels (s’ils sont codés de manière appropriée), pour cette régression, nous supposerons que les prédicteurs sont continus. Cela implique que le prédicteur doit avoir une variabilité raisonnable. Les analyses exploratoires suivantes aideront à confirmer la continuité de nos variables prédictives. Rappelons également que pour la régression, la variable dépendante (ou réponse) doit être continue. Si ce n’est pas le cas, comme une variable codée binaire (par exemple, oui vs non), alors la régression multiple n’est pas la meilleure stratégie. L’analyse discriminante ou la régression logistique est plus adaptée pour les modèles avec des variables dépendantes binaires ou polytomiques. « Polytomique » signifie que la variable a plusieurs catégories. Nous générons quelques histogrammes de nos variables : GRAPHIQUES → DIALOGUES ANCIENS → HISTOGRAMME Nous sélectionnons d’abord la variable GAF pour examiner son histogramme : Nous déplaçons « GAF » du côté gauche vers le côté droit sous Variable. La syntaxe ci-dessus est celle qui pourrait être utilisée dans la fenêtre de syntaxe au lieu de l’interface graphique. Dans la fenêtre de syntaxe, nous entrerions : FICHIER → NOUVEAU → SYNTAXE Après avoir saisi la syntaxe, cliquez sur la flèche verte en haut à droite pour exécuter la syntaxe. Nous remarquons (à gauche) qu’avec une moyenne égale à 28.00 et un écart type de 15.89, la variable GAF semble être quelque peu normalement distribuée dans l’échantillon. Les distributions d’échantillon des variables ne seront jamais parfaitement normales, ni n’ont besoin de l’être pour la régression. La question pour l’instant a plus à voir avec le fait que la variable a une distribution suffisante le long de l’axe des x pour la traiter comme une variable continue. Pour GAF, la variable semble relativement « bien comportée » à cet égard. Les histogrammes des variables prédictives AGE, PRETHERAPY et N_THERAPY suivent ci-dessous : GRAPHIQUES → DIALOGUES ANCIENS → HISTOGRAMME GRAPH /HISTOGRAM=AGE. GRAPH /HISTOGRAM=PRETHERAPY. GRAPH /HISTOGRAMME=N_THERAPY. Tous les histogrammes révèlent une certaine continuité dans leurs variables respectives, suffisante pour que nous puissions procéder à la régression multiple. Rappelez-vous, ces distributions n’ont pas besoin d’être parfaitement normales pour que nous puissions continuer, ni la régression ne les exige – nous traçons simplement les distributions pour avoir une idée de la mesure dans laquelle il y a une distribution (la mesure dans laquelle les scores varient), mais le fait que ces distributions ne soient pas normalement distribuées n’est pas un problème. Une des hypothèses de la régression multiple est que les résidus (du modèle que nous allons construire) sont généralement approximativement normalement distribués, mais nous vérifierons cette hypothèse via des analyses des résidus après avoir ajusté le modèle. Les résidus sont basés sur le modèle ajusté complet, et non sur des distributions univariées considérées séparément comme ci-dessus.

Analyse de régression multiple dans IBM SPSS Lire la suite »