SPSS

Données

Analyse

Graphiques

Utilitaires

Transformation

Extensiosn

prédiction_linéaire

Détection des valeurs aberrantes multivariées et des observations influentes dans IBM SPSS

Le domaine de la vérification des hypothèses et de la détection des valeurs aberrantes est vaste. Les experts consacrent leur carrière à développer de nouvelles méthodes pour identifier les observations multivariées éloignées des autres. La théorie sous-jacente est très complexe (pour plus de détails, voir Fox (2016)). Pour nos besoins, nous allons directement à l’essentiel et fournissons des directives immédiates pour détecter les observations qui pourraient avoir une influence importante sur le modèle de régression ou qui sont multivariées « anormales » au point d’être considérées comme des valeurs aberrantes. Nous utilisons le terme « influence importante » dans notre contexte uniquement pour indiquer les observations qui pourraient, en général, avoir un « effet » significatif sur les estimations des paramètres du modèle. Dans des traitements plus théoriques des diagnostics de régression, des définitions précises sont données pour diverses manières dont les observations peuvent exercer une influence ou avoir un impact. Nous allons demander à SPSS les distances de Mahalanobis, les valeurs de Cook’s d et les leviers : ANALYSE → REGRESSION → LINEARE → ENREGISTRER Une fois dans l’option ENREGISTRER, cochez Mahalanobis, Cook et les valeurs influentes. Le résultat de ces sélections est affiché dans la vue des données : Pour des raisons pratiques, voici les règles empiriques à connaître : Mahalanobis (MAH_1) : les valeurs sont considérées comme « élevées » si elles dépassent une valeur critique calculée à partir d’une distribution d’échantillonnage du Chi-degrés de liberté égaux au nombre de prédicteurs. Pour nos données, avec trois prédicteurs à 0.05, cette valeur est de 7.82 (16.27 si vous utilisez 0.001). Bien que l’observation 2 dans nos données (MAH_1 = 6.00118) soit relativement élevée, elle ne remplit pas les critères pour être considérée comme une valeur aberrante multivariée. Cook’s d (COO_1) : des valeurs supérieures à 1.0 peuvent suggérer que l’observation exerce une influence assez forte sur les coefficients de régression estimés. Les seuils exacts ne sont pas obligatoires – recherchez les valeurs qui se distinguent des autres. Cook’s d nous donne une mesure de l’impact d’une observation donnée sur la solution finale, en évaluant dans quelle mesure les résultats changeraient si l’analyse était refaite sans cette observation. Leviers (LEV_1) : ce sont les valeurs de levier. Les valeurs de levier supérieures à deux fois la moyenne peuvent être préoccupantes. Pour nos données, la moyenne est de 0.3 (vérifiez avec DESCRIPTIVES), donc le seuil général est de 0.6 (c’est-à-dire 2 fois 0.3), ce que l’observation 2 dépasse. Le levier est une mesure de l’écart d’une observation par rapport à la moyenne des prédicteurs. Les seuils ne font pas l’objet d’un consensus .

Détection des valeurs aberrantes multivariées et des observations influentes dans IBM SPSS Lire la suite »

Résidus et Graphiques de Résidus : Évaluation des Hypothèses dans IBM SPSS

L’une des hypothèses de l’analyse de régression, qu’il s’agisse de régression linéaire simple ou multiple, est que les erreurs sont normalement distribuées. Pour examiner si cette hypothèse est au moins provisoirement satisfaite, nous pouvons effectuer des analyses des résidus sur notre modèle ajusté utilisant les variables AGE, PRETHERAPY et N_THERAPY pour prédire GAF. Un graphique de base des résidus pour le modèle peut être facilement obtenu en ouvrant la fenêtre ENREGISTRER(ANALYSE-REGRESSION-LINEAIRE-ENREGISTRER) dans la boîte de régression linéaire et en sélectionnant parmi plusieurs types de résidus : Lorsque nous ouvrons l’onglet SAVE, pour obtenir les résidus non standardisés, sélectionnez « Residuels (non standardisées) ». Typiquement, vous feriez cette sélection lors de la première analyse de régression, mais dans notre cas, nous avons choisi de le faire après coup car nous voulions d’abord interpréter les paramètres de notre modèle. Les résidus calculés apparaîtront dans la vue des données : La colonne RES1 à droite ci-dessus contient les résidus calculés à partir de la régression. Vous pouvez vérifier que la somme des résidus est égale à 0. Ensuite, en utilisant EXPLORER(ANALYSE-STATISTIQUES DESCRIPTIVES-EXPLORER), déplacez « Unstandardized Residuals » vers la liste des dépendantes cliquez sur OK : Nous notons les éléments suivants : La moyenne des résidus non standardisés est égale à 0. C’est une nécessité, car les résidus représentent des écarts autour des valeurs prédites. L’écart-type de 7,262 est l’écart-type des résidus mais avec le dénominateur habituel n−1n−1. Par conséquent, il ne sera pas égal à l’erreur standard de l’estimation de 8,89 discutée précédemment dans le résumé du modèle, car cette estimation a été calculée comme la racine carrée de la somme des écarts carrés au numérateur divisée par 6 (c’est-à-dire n−k−1=10−3−1=6) pour notre modèle. Autrement dit, nous avons perdu k+1 degrés de liberté lors du calcul de l’écart-type des résidus pour notre modèle. La valeur de 7,26 présentée ci-dessus est l’écart-type des résidus avec seulement un degré de liberté perdu au dénominateur. Nous pouvons voir à partir de la mesure d’asymétrie, égale à 0,001, que la normalité des résidus ne devrait pas poser problème (mais nous devrons tout de même les représenter graphiquement pour en être sûrs, car une asymétrie nulle peut également se produire dans des distributions bimodales). Le graphique des résidus apparaît ci-dessous (un diagramme tige-feuille, un boxplot et un graphique Q-Q sont fournis). Bien que calculés sur un très petit échantillon, tous les graphiques ne nous donnent aucune raison de douter sérieusement que les résidus sont au moins approximativement normalement distribués (ces distributions sont plus rectangulaires que normales, mais avec un si petit échantillon dans notre cas, ce n’est pas suffisant pour rejeter les hypothèses de normalité – rappelez-vous, la vérification des hypothèses dans les modèles statistiques n’est pas une science exacte, surtout avec seulement 10 observations). ANALYSER → STATISTIQUES DESCRIPTIVES → EXPLORER → TRACER Les résidus non standardisés ont été examinés pour vérifier qu’ils sont au moins approximativement normalement distribués. Tous les graphiques suggèrent une distribution au moins approximativement normale, et les hypothèses nulles des tests de Kolmogorov-Smirnov et Shapiro-Wilk n’ont pas été rejetées, ce qui ne nous donne aucune raison de rejeter l’hypothèse.

Résidus et Graphiques de Résidus : Évaluation des Hypothèses dans IBM SPSS Lire la suite »

Interactions dans la Régression Multiple dans IBM SPSS

Rappelons que dans l’ANOVA factorielle, une interaction était définie comme l’effet d’une variable indépendante qui n’est pas cohérent à travers les niveaux d’une autre variable indépendante. Et comme nous l’avons vu dans le chapitre 7, si nous avons des preuves d’une interaction, il est généralement approprié de poursuivre avec des effets principaux simples. Ces interactions impliquaient des variables indépendantes qui étaient, bien sûr, catégorielles. Dans la régression multiple, comme nous l’avons vu, nous avons généralement des variables continues comme prédicteurs, donc à première vue, il peut sembler que les interactions ne soient pas réalisables ou possibles. Cependant, cette vision est erronée. Les interactions sont réalisables dans la régression multiple, mais nous devons faire attention à la manière dont nous les abordons, ainsi qu’à leur interprétation. Comme exemple d’interaction dans la régression multiple, nous considérons une fois de plus nos données GAF, en nous concentrant à nouveau sur les prédicteurs AGE et PRETHERAPY dans leur prédiction de GAF. Supposons que nous posions la question suivante : La prédiction de GAF à partir de AGE dépend-elle du degré de PRETHERAPY ? Cette question nous invite à tester l’interaction pour AGE*PRETHERAPY. Pour ce faire, nous devons produire un terme produit en multipliant AGE par PRETHERAPY : TRANSFORMER → CALCULER UNE VARIABLE Sous Variable Cible, entrez « AGE_PRETHERAPY ». Sous Expression Numérique, produisez le terme produit AGE*PRETHERAPY. Cliquez sur OK. Nous voyons que SPSS a créé une nouvelle variable appelée « AGE_PRETHERAPY » en multipliant les valeurs de AGE par PRETHERAPY. Par exemple, pour le cas 1, la valeur de 1092.00 a été calculée par 21.00 * 52.00 = 1092. Maintenant, pour tester le terme d’interaction, nous incluons tous les effets dans le modèle (pas seulement le terme d’interaction), à la fois les « effets principaux » de AGE et PRETHERAPY ainsi que le nouveau terme produit : Les pentes simples dans la régression sont similaires dans l’esprit aux effets principaux simples dans l’ANOVA et permettent de décomposer la nature de l’interaction et de l’explorer un peu. L’interaction, dans ce cas, n’est pas statistiquement significative (p = 0.821). Si le terme d’interaction avait été significatif, cela aurait suggéré que l’effet de AGE sur GAF change en fonction de PRETHERAPY, et de même, l’effet de PRETHERAPY sur GAF change en fonction de AGE. C’est-à-dire que l’effet d’un prédicteur sur la réponse dépend de l’autre. Une régression multiple a été effectuée dans laquelle AGE, PRETHERAPY et l’interaction de AGE et PRETHERAPY étaient supposés prédire GAF. Le terme produit a été généré en multipliant PRETHERAPY par AGE. Aucune preuve d’un effet d’interaction n’a été trouvée (p = 0.821).

Interactions dans la Régression Multiple dans IBM SPSS Lire la suite »

Approches de construction de modèles en régression dans IBM SPSS

Dans la régression multiple abordée jusqu’à présent, nous avons procédé en incluant simultanément tous les prédicteurs dans la régression. Par exemple, pour prédire GAF, nous avons inclus AGE, PRETHERAPY et N_THERAPY en même temps dans notre régression et observé les effets de chaque variable en présence des autres. Cette approche dans SPSS est appelée l’approche d’entrée complète, et elle est activée en sélectionnant « Enter » comme méthode lors de l’exécution de la régression : Lorsque nous souhaitons inclure tous les prédicteurs simultanément dans la régression, nous nous assurons que « EIntroduire » est sélectionné sous « Methode ». Cependant, il arrive que les chercheurs souhaitent utiliser une approche différente de la régression par entrée complète, comme l’ajout ou la suppression de variables une par une après avoir observé l’impact des variables déjà incluses dans le modèle. Dans la régression hiérarchique, le chercheur décide de l’ordre exact dans lequel les variables sont introduites dans le modèle. Par exemple, un chercheur pourrait hypothétiser que AGE est un prédicteur influent et choisir de l’inclure en premier dans le modèle. Ensuite, avec cette variable déjà incluse, il pourrait observer l’effet de PRETHERAPY en plus de celui de AGE (ou en d’autres termes, en maintenant AGE constant). Voici comment procéder : L’effet de AGE seul dans le modèle est statistiquement significatif (p=0.006).  Ensuite, le chercheur ajoute le deuxième prédicteur. Il sélectionne « Suivant » pour construire le deuxième modèle et inclut à la fois AGE et PRETHERAPY (notez que l’interface affiche maintenant « Block 2 of 2 »). Voici un extrait partiel des résultats : Avec PRETHERAPY inclus dans le modèle, le chercheur peut observer si cette variable est statistiquement significative compte tenu de la présence de AGE, et évaluer directement la contribution de PRETHERAPY. La valeur pp de 0.058 pour PRETHERAPY reflète son importance après l’inclusion de AGE. Il ne s’agit pas de la valeur pp pour PRETHERAPY seule. Notons également que nous construisons simplement différents modèles de régression. Le modèle 1 ou le modèle 2 pourraient être considérés comme des modèles « d’entrée complète » s’ils étaient exécutés séparément. Cependant, l’objectif de la régression hiérarchique est de permettre au chercheur de choisir l’ordre d’inclusion des variables en fonction de sa théorie substantielle. Vous pourriez penser à ce stade : « Cela ressemble beaucoup à l’exemple de médiation que nous étudierons plus tard dans ce chapitre », et vous auriez raison. L’analyse de médiation utilise essentiellement cette approche hiérarchique pour établir ses preuves. L’analyse de médiation n’est pas « équivalente » à la régression hiérarchique, mais elle emploie une approche hiérarchique pour vérifier si le chemin original (dans nos données, ce chemin sera AGE prédictif de GAF) diminue ou disparaît après l’inclusion de l’hypothétique médiateur (PRETHERAPY). Nous aborderons la médiation sous peu. Résumé des résultats :  Une régression linéaire hiérarchique a été réalisée pour prédire GAF. Le premier prédicteur inclus dans le modèle était l’âge, expliquant environ 63.5% de la variance de GAF (p=0.006p=0.006). À la deuxième étape, PRETHERAPY a été inclus (p=0.058p=0.058), augmentant la variance expliquée par le modèle complet à 79.0%.

Approches de construction de modèles en régression dans IBM SPSS Lire la suite »

Exécution de la régression multiple dans IBM SPSS

Rappelons la nature du modèle que nous souhaitons exécuter. Nous pouvons spécifier l’équation de régression comme suit : GAF=AGE+PRETHERAPY+N_THERAPYGAF=AGE+PRETHERAPY+N_THERAPY Pour exécuter la régression : ANALYSE→REˊGRESSION→LINEˊAIRE.   Nous déplaçons GAF vers la boîte Dépendante (puisque c’est notre variable dépendante ou « réponse »). Nous déplaçons AGE, PRETHERAPY et N_THERAPY vers les variables Indépendante(s) (puisque ce sont nos prédicteurs, les variables que nous souhaitons voir prédire simultanément GAF). Sous la variable Indépendante(s), la Méthode est notée et est actuellement, par défaut, définie sur Introduirr. Cela signifie que SPSS effectuera la régression sur tous les prédicteurs simultanément plutôt que de manière séquentielle (la sélection progressive, la sélection arrière et la sélection pas à pas sont d’autres options pour l’analyse de régression, comme nous le verrons bientôt). Ensuite, nous cliquerons sur la boîte Statistiques et sélectionnerons quelques options : Sous Coefficients de régression, nous avons sélectionné Estimations et Intervalles de confiance (à un niveau de 95 %). Nous avons également sélectionné Qualité de l’ajustement, Variation du R-carré, Descriptives, Mesure et Corrélations partielles et Tests de colinéarité. Sous Résiduels, nous avons sélectionés Diagnostic des observations par Points atypiques et  en dehors de 3 écarts types. Cliquez sur Poursuivre. Nous aurions sélectionné le test de Durbin-Watson si nous avions eu des données chronologiques et souhaitions savoir s’il existait des preuves que les erreurs étaient corrélées. Il y a d’autres options que nous pouvons sélectionner sous Graphiques et Enregistrer dans la fenêtre principale de Régression linéaire, mais comme la plupart de ces informations concernent l’évaluation des résidus, nous reportons cette étape à plus tard, après avoir ajusté le modèle. Pour l’instant, nous voulons obtenir les résultats de notre régression et démontrer l’interprétation des estimations des paramètres. Lorsque nous exécutons la régression multiple, nous obtenons ce qui suit (ci-dessous la syntaxe qui représente les sélections que nous avons faites via l’interface graphique) : À gauche se trouvent certaines des statistiques descriptives que nous avions demandées pour notre régression. Ce sont les mêmes informations que nous aurions obtenues dans notre exploration préliminaire des données. Il est cependant utile de vérifier que N=10 pour chaque variable, sinon cela indiquerait que nous avons des valeurs manquantes ou des données incomplètes. Dans nos résultats, nous voyons que GAF a une moyenne de 28,0, AGE a une moyenne de 26,8, PRETHERAPY a une moyenne de 54,8 et N_THERAPY a une moyenne de 13,2. Les écarts types sont également fournis. SPSS nous fournit également une matrice de coefficients de corrélation de Pearson entre toutes les variables, ainsi que des valeurs pp (Sig. unilatéral) indiquant si elles sont statistiquement significatives. Ayant déjà examiné les relations bivariées générales entre les variables lorsque nous avons tracé les diagrammes de dispersion, cette matrice nous fournit des preuves supplémentaires que les variables sont au moins quelque peu linéairement liées dans l’échantillon. Nous ne nous intéressons pas à la signification statistique des corrélations pour effectuer la régression multiple, et puisque la taille de l’échantillon est assez petite (N=10N=10), il n’est guère surprenant que beaucoup de corrélations ne soient pas statistiquement significatives.  Ensuite, SPSS indique quelles variables ont été entrées dans la régression et lesquelles ont été exclues. Comme nous avons effectué une régression « entrée complète » (rappelons que nous avions sélectionné Entrer sous Méthode), toutes nos variables seront entrées dans la régression simultanément, et aucune ne sera supprimée. Lorsque nous effectuerons des régressions progressives et pas à pas, par exemple, cette boîte Variables supprimées sera un peu plus occupée ! Ci-dessus se trouve le Résumé du modèle pour la régression. Pour un compte rendu relativement détaillé de ce que signifient toutes ces statistiques et de la théorie qui les sous-tend, consultez Denis (2016, chapitres 8 et 9) ou tout livre sur la régression. Nous interprétons chaque statistique ci-dessous : • R de 0,890 représente le coefficient de corrélation multiple entre la variable réponse (GAF) et les trois prédicteurs considérés simultanément (AGE, PRETHERAPY, N_THERAPY). C’est-à-dire que c’est la corrélation entre GAF et une combinaison linéaire de AGE + PRETHERAPY et N_THERAPY. Le R multiple peut varier en valeur de 0 à 1,0 (notez qu’il ne peut pas être négatif, contrairement au r de Pearson ordinaire sur deux variables qui varie de −1,0−1,0 à +1,0+1,0). R-carré est le carré du coefficient de corrélation multiple (appelé coefficient de détermination multiple) et représente la proportion de variance dans la variable réponse expliquée par la connaissance simultanée des prédicteurs. C’est-à-dire que c’est la proportion de variance expliquée par le modèle, le modèle étant la régression de GAF sur la combinaison linéaire de AGE + PRETHERAPY et N_THERAPY. R-carré ajusté est une version alternative du R-carré et est plus petit que le R-carré (rappelons que nous avions discuté du R-carré ajusté plus tôt dans le contexte de la régression linéaire simple). Le R-carré ajusté prend en compte le nombre de paramètres ajustés au modèle par rapport à leur contribution à l’ajustement du modèle. Erreur standard de l’estimation est l’écart type des résidus pour le modèle (avec des degrés de liberté différents de l’écart type typique). Une valeur très faible ici indiquerait que le modèle s’ajuste assez bien, et une valeur très élevée suggérerait que le modèle ne fournit pas un très bon ajustement aux données. Lorsque nous interpréterons le tableau ANOVA pour la régression sous peu, nous discuterons de son carré, qui est la Variance de l’estimation. Ensuite, SPSS rapporte les « Statistiques de changement ». Celles-ci sont plus applicables lorsque nous effectuons des régressions hiérarchiques, progressives ou pas à pas. Lorsque nous ajoutons des prédicteurs à un modèle, nous nous attendons à ce que le R-carré augmente. Ces statistiques de changement nous indiquent si l’incrément du R-carré est statistiquement significatif, ce qui signifie grossièrement que c’est plus qu’un changement que nous attendrions par hasard. Pour nos données, puisque nous avons entré tous les prédicteurs simultanément dans le modèle, le Changement du R-carré est équivalent à la statistique R-carré originale. Le F de changement de 7,582 est la statistique FF associée au modèle, sur les degrés de liberté donnés de 3 et 6, ainsi que la valeur pp de 0,018. Notez que ces informations dupliquent les informations trouvées dans le tableau ANOVA qui sera discuté sous peu. Encore une

Exécution de la régression multiple dans IBM SPSS Lire la suite »

Matrice de dispersion (Scatterplot Matrix) dans IBM SPSS

Étant donné que nous allons ajuster un modèle de régression multiple à ces données, l’aspect le plus important sera de comprendre comment les variables sont liées entre elles dans un contexte multivarié. Évaluer la linéarité multivariée et détecter la présence de valeurs aberrantes dans un tel contexte est complexe. C’est pourquoi des analyses en dimensions réduites sont utiles pour repérer des éléments tels que des valeurs aberrantes ou des violations potentielles de la linéarité (nous nous appuierons également sur des analyses de résidus pour vérifier les hypothèses). Pour cela, nous pouvons créer une matrice de dispersion (scatterplot matrix) de toutes les variables incluses dans l’analyse afin d’observer de manière exploratoire les relations entre elles : GRAPHIQUES → DIALOGUES HÉRITÉS → DISPERSION/POINT Une fois la boîte de dialogue DISPERSION/POINT ouverte, sélectionnez Dispersion des matrice puis cliquez sur Define. Ensuite, déplacez toutes les variables de la gauche vers la zone Variables des matrices. Cela génère la matrice de dispersion affichée à droite : Nous pouvons observer dans cette matrice que toutes les paires de variables partagent au moins une relation approximativement linéaire, sans présence apparente de valeurs aberrantes bivariées. Encore une fois, il est important de souligner que nous ne recherchons pas la « perfection » dans ces graphiques. Nous cherchons simplement des raisons (par exemple, des valeurs aberrantes extrêmes, des tendances étranges s’écartant significativement de la linéarité) qui pourraient nous inciter à retarder la régression multiple et à examiner plus en détail d’éventuelles anomalies dans nos données. Nous devons également souligner à ce stade qu’il existe un nombre infini de graphiques que l’on peut générer pour visualiser et explorer ses données, ainsi que de nombreuses statistiques descriptives supplémentaires via DESCRIPTIVES ou EXPLORE. Ainsi, notre bref examen des graphiques ci-dessus ne signifie pas que vous deviez vous limiter à ces analyses exploratoires. N’hésitez pas à générer autant de graphiques et de visualisations que nécessaire pour bien comprendre vos données – vous pourriez découvrir quelque chose d’inattendu (comme une valeur aberrante lointaine), ce qui pourrait inspirer une nouvelle hypothèse scientifique ou une autre découverte potentielle. Pour notre part, comme notre objectif principal est de vous montrer comment exécuter et interpréter une régression multiple dans SPSS, nous arrêtons ici notre exploration et passons directement à l’analyse de régression multiple.

Matrice de dispersion (Scatterplot Matrix) dans IBM SPSS Lire la suite »

Analyse de régression multiple dans IBM SPSS

Rappelons le modèle de régression multiple évoqué précédemment : yi=α+β1 x1i+β2 x2i+εi. Comme le modèle de régression linéaire simple, le modèle ci-dessus vise à faire des prédictions de la variable réponse, mais cette fois, au lieu d’utiliser uniquement un seul prédicteur xi, nous incluons maintenant un deuxième prédicteur x2. Nous n’avons pas besoin de nous arrêter là ; nous pouvons théoriquement inclure beaucoup plus de prédicteurs, de sorte que la forme générale du modèle devient, pour kk prédicteurs : yi=α+β1 x1i+β2 x2i+.⋯+βk​xki​+ϵi​ Bien que l’objectif de la régression multiple soit le même que celui de la régression simple, c’est-à-dire faire des prédictions de la réponse, traiter plusieurs dimensions simultanément devient beaucoup plus complexe et nécessite des matrices pour illustrer les calculs. Bien que nous utiliserons des matrices plus tard dans le livre lorsque nous aborderons les techniques multivariées, pour l’instant, nous reportons notre discussion à leur sujet et nous concentrons uniquement sur l’interprétation du modèle de régression à travers un exemple. Nous allons maintenant démontrer comment effectuer une analyse de régression multiple complète dans SPSS et comment interpréter les résultats. Nous effectuerons notre régression multiple sur l’ensemble de données fictif suivant, tiré de Petrocelli (2003), dans lequel nous sommes intéressés par la prédiction de l’Évaluation Globale du Fonctionnement (GAF) (des scores plus élevés indiquent un meilleur fonctionnement) basée sur trois prédicteurs : l’âge, le score de dépression avant la thérapie (des scores plus élevés indiquent plus de dépression) et le nombre de séances de thérapie. Nos données dans SPSS se présentent comme suit : Nos variables sont définies comme suit : GAF – Score d’Évaluation Globale du Fonctionnement (des scores plus élevés indiquent un meilleur fonctionnement). AGE – Âge du participant en années. PRETHERAPY – Score de dépression d’un participant avant la thérapie (des scores plus élevés = plus de dépression). N_THERAPY – Nombre de séances de thérapie pour un participant. Il n’y a que 10 cas par variable, mais il est néanmoins utile d’examiner leurs distributions, à la fois de manière univariée (c’est-à-dire pour chaque variable) et bivariée par paires (deux variables à la fois dans des diagrammes de dispersion), à la fois pour avoir une idée de la distribution continue des variables et aussi pour des preuves préliminaires qu’il existe des relations linéaires entre les variables. Bien que les prédicteurs dans la régression puissent représenter des groupements catégoriels (s’ils sont codés de manière appropriée), pour cette régression, nous supposerons que les prédicteurs sont continus. Cela implique que le prédicteur doit avoir une variabilité raisonnable. Les analyses exploratoires suivantes aideront à confirmer la continuité de nos variables prédictives. Rappelons également que pour la régression, la variable dépendante (ou réponse) doit être continue. Si ce n’est pas le cas, comme une variable codée binaire (par exemple, oui vs non), alors la régression multiple n’est pas la meilleure stratégie. L’analyse discriminante ou la régression logistique est plus adaptée pour les modèles avec des variables dépendantes binaires ou polytomiques. « Polytomique » signifie que la variable a plusieurs catégories. Nous générons quelques histogrammes de nos variables : GRAPHIQUES → DIALOGUES ANCIENS → HISTOGRAMME Nous sélectionnons d’abord la variable GAF pour examiner son histogramme : Nous déplaçons « GAF » du côté gauche vers le côté droit sous Variable. La syntaxe ci-dessus est celle qui pourrait être utilisée dans la fenêtre de syntaxe au lieu de l’interface graphique. Dans la fenêtre de syntaxe, nous entrerions : FICHIER → NOUVEAU → SYNTAXE Après avoir saisi la syntaxe, cliquez sur la flèche verte en haut à droite pour exécuter la syntaxe. Nous remarquons (à gauche) qu’avec une moyenne égale à 28.00 et un écart type de 15.89, la variable GAF semble être quelque peu normalement distribuée dans l’échantillon. Les distributions d’échantillon des variables ne seront jamais parfaitement normales, ni n’ont besoin de l’être pour la régression. La question pour l’instant a plus à voir avec le fait que la variable a une distribution suffisante le long de l’axe des x pour la traiter comme une variable continue. Pour GAF, la variable semble relativement « bien comportée » à cet égard. Les histogrammes des variables prédictives AGE, PRETHERAPY et N_THERAPY suivent ci-dessous : GRAPHIQUES → DIALOGUES ANCIENS → HISTOGRAMME GRAPH /HISTOGRAM=AGE. GRAPH /HISTOGRAM=PRETHERAPY. GRAPH /HISTOGRAMME=N_THERAPY. Tous les histogrammes révèlent une certaine continuité dans leurs variables respectives, suffisante pour que nous puissions procéder à la régression multiple. Rappelez-vous, ces distributions n’ont pas besoin d’être parfaitement normales pour que nous puissions continuer, ni la régression ne les exige – nous traçons simplement les distributions pour avoir une idée de la mesure dans laquelle il y a une distribution (la mesure dans laquelle les scores varient), mais le fait que ces distributions ne soient pas normalement distribuées n’est pas un problème. Une des hypothèses de la régression multiple est que les résidus (du modèle que nous allons construire) sont généralement approximativement normalement distribués, mais nous vérifierons cette hypothèse via des analyses des résidus après avoir ajusté le modèle. Les résidus sont basés sur le modèle ajusté complet, et non sur des distributions univariées considérées séparément comme ci-dessus.

Analyse de régression multiple dans IBM SPSS Lire la suite »

Interprétation d’une Régression Linéaire Simple : Aperçu des Résultats dans IBM S

Étant donné que la majorité des régressions que vous conduirez seront probablement des régressions multiples, nous consacrons la majeure partie de ce chapitre à l’interprétation du modèle de régression multiple. Cependant, pour commencer, nous présentons un modèle de régression simple et nous concentrons sur l’interprétation des coefficients de ce modèle. Régressons la variable « verbal » sur la variable « quantitative » : ANALYSE – REGRESSION – LINEARE.   Nous sélectionnerons davantage d’options lorsque nous aborderons la régression multiple, mais pour l’instant, examinons les résultats de ce modèle simple : Pour le modèle de régression simple, la valeur de R (0.808) est égale à la corrélation bivariée entre « quantitatif » et « verbal ». Comme nous le verrons, dans le modèle de régression multiple, RR sera défini de manière plus complexe et représentera la corrélation des prédicteurs (au pluriel) avec la variable réponse. Le R2 de 0.653 est le carré de R et représente la proportion de variance de « verbal » expliquée par « quantitatif ». Pour nos données, le R2 ajusté est donné par : où n est le nombre d’observations et pp est le nombre de paramètres estimés dans le modèle (y compris l’ordonnée à l’origine). Le rôle de R2Aj est de fournir une estimation plus prudente de la vraie valeur de R2Aj dans la population, car il « pénalise » en quelque sorte l’ajout de paramètres non pertinents. Ainsi, R2Aj​ est généralement inférieur à R2. Pour nos données, le R2 ajusté de 0.641 est légèrement inférieur au R2 de 0.653. Le choix de rapporter la valeur ajustée ou non dans vos résultats est souvent une question de préférence. L’erreur standard de l’estimation est la racine carrée de la moyenne des résidus (MS Residual) de l’ANOVA associée à la régression, qui montre comment la variance a été partitionnée : Remarquez que la valeur de l’erreur standard de l’estimation est égale à la racine carrée de 60.506, la valeur de MS Residual. Nous discuterons plus en détail le contenu du tableau ANOVA lorsque nous aborderons le modèle de régression multiple complet. Pour l’instant, nous pouvons observer que nous avons obtenu une statistique F de 52.678, qui est statistiquement significative (p=0.000), indiquant que la prédiction de « verbal » à l’aide de « quantitatif » est meilleure que sans « quantitatif ». Nous pouvons également voir comment R2 a été calculé par le rapport SS Régression / SS Total (soit 3187.305 / 4881.467 = 0.653). Les degrés de liberté pour la régression correspondent au nombre de prédicteurs dans le modèle, qui est ici de 1. Les degrés de liberté résiduels sont égaux à n−k−1=30−1−1=28n−k−1=30−1−1=28 (où k est le nombre de prédicteurs, ici égal à 1). SPSS nous fournit les coefficients du modèle. La valeur de la constante est la valeur prédite lorsque « quant » est égal à 0. L’équation de régression estimée est : Verbal=35.118+0.565(quantitatif). L’ordonnée à l’origine est calculée par : où aY⋅X​ est l’ordonnée à l’origine de Y régressé sur X et bY⋅X​ est la pente de Y régressé sur X. Lorsque « quantitatif » = 0, nous avons : Verbal=35.118+0.565(0)=35.118+0=35.118 Le coefficient pour « quantitatif » est de 0.565 et s’interprète comme suit : pour une augmentation d’une unité de « quantitatif », nous pouvons nous attendre, en moyenne, à une augmentation de 0.565 unités de « verbal ». Ce coefficient de 0.565 est la pente de la régression de « verbal » sur « quantitatif » et est calculé par : ​ Nous voyons que la pente compare la somme des produits croisés au numérateur avec la somme des carrés pour Xi​ au dénominateur. Généralement, nous ne nous intéressons pas autant à la valeur de l’ordonnée à l’origine, ni à son test de significativité. Notre attention se porte davantage sur la pente, car c’est elle qui nous renseigne sur la capacité prédictive de notre variable explicative. SPSS indique les erreurs standard (Std. Error) pour l’ordonnée à l’origine et la pente, utilisées pour calculer les tests t associés à chaque paramètre estimé. Par exemple, la statistique tt de 6.514 pour la constante est calculée par 35.118 / 5.391, tandis que celle de 7.258 pour « quantitatif » est obtenue par 0.565 / 0.078. L’hypothèse nulle testée pour la constante et la pente est qu’elles sont toutes deux égales à 0. Pour la pente, cela revient à dire que « quantitatif » n’apporte aucune puissance prédictive supplémentaire par rapport à la simple prédiction de la moyenne de « verbal ». Comme p=0.000, nous avons des preuves inférentielles suggérant que la pente dans la population n’est pas nulle. En effet, le R2 de 0.653 indique qu’environ 65 % de la variance de « verbal » est expliquée par « quantitatif ». Bien sûr, le modèle ne sera pas parfait, et nous observerons des erreurs par rapport à la droite de régression ajustée. Un résidu est la différence entre la valeur observée et la valeur prédite, soit yi−yi′. Les résidus sont importants à examiner après l’ajustement du modèle, non seulement pour évaluer la qualité globale de l’ajustement, mais aussi pour valider les hypothèses sous-jacentes. Nous réservons cette discussion pour le modèle de régression multiple complet, que nous aborderons ensuite.

Interprétation d’une Régression Linéaire Simple : Aperçu des Résultats dans IBM S Lire la suite »

Exemple de Régression Linéaire Simple dans IBM SPSS

À titre d’exemple simple de régression linéaire, rappelons nos données de QI mentionnées précédemment : Examinons un nuage de points verbal en fonction du quantitatif. Nous constatons que la relation est approximativement linéaire. Malgré la dispersion des points de données, nous pourrions ajuster une droite aux données afin de prédire les valeurs du verbal à partir des valeurs du quantitatif. Nous ajustons ci-dessous une telle droite, appelée droite des moindres carrés : La droite de régression des moindres carrés de la population est donnée par : yi=α+βxi+εi où α est l’ordonnée à l’origine de la population et β est la pente de la population. Les valeurs de εᵢ sont les erreurs de prédiction. Bien entendu, nous ne connaîtrons généralement pas les valeurs de α et β dans la population et devrons donc les estimer à l’aide des données de l’échantillon. La droite des moindres carrés est ajustée de manière à ce que, lorsque nous l’utilisons pour prédire le score verbal à partir du score quantitatif, nos erreurs de prédiction soient, en moyenne, plus faibles que si nous avions ajusté une autre droite. Une erreur de prédiction est une déviation de la forme : ei=yi−y’i. où yᵢ sont les valeurs observées du verbal et ŷᵢ sont les valeurs prédites. La régression des moindres carrés garantit que la somme des carrés de ces erreurs est minimale (c’est-à-dire la plus petite possible comparée à tout autre ajustement de droite) : Si le modèle de population était une régression linéaire multiple, nous pourrions avoir une seconde variable prédictive : yi=a+b1x1i+b2x2i+εi et la fonction des moindres carrés viserait alors à minimiser ce qui suit : Notez que, que le modèle soit simple ou multiple, le concept reste le même. On ajuste une fonction des moindres carrés de manière à minimiser la somme des carrés des erreurs autour de la fonction.

Exemple de Régression Linéaire Simple dans IBM SPSS Lire la suite »