SPSS

Données

Analyse

Graphiques

Utilitaires

Transformation

Extensiosn

régréssion_logistique

Puissance pour la Régression Logistique dans IBM SPSS

Nous pouvons facilement estimer la taille d’échantillon nécessaire pour un niveau de puissance donné dans le cadre d’une régression logistique en utilisant G∗PowerG∗Power. La taille de l’effet que nous devons saisir pour estimer la puissance est celle du rapport de cotes, c’est-à-dire le rapport minimal attendu ou souhaité des chances d’être classé dans une catégorie de la variable réponse par rapport à l’autre. À titre d’exemple, supposons que nous calculions la taille d’échantillon souhaitée pour un rapport de cotes de 1,0, ce qui signifie essentiellement aucun effet (puisqu’il implique que les chances d’être classé dans l’un des deux groupes mutuellement exclusifs ne sont pas plus grandes que les chances d’être classé dans l’autre) : Tests → Corrélation et régression → Régression logistique : Pour un rapport de cotes de 1,0, nous voyons que la taille d’échantillon et la puissance ne peuvent pas être calculées (ce qui génère des messages d’erreur). Cela est dû au fait que nous avons essentiellement spécifié un effet nul. Supposons maintenant que nous spécifiions un rapport de cotes de 1,5. Pour un rapport de cotes de 1,5 et une puissance souhaitée de 0,95, nous pouvons voir que la taille d’échantillon estimée est égale à 337. Augmenter la valeur du R2R2 des autres X dans le modèle aura pour effet d’augmenter la taille totale de l’échantillon nécessaire pour détecter le même effet. Cette estimation est basée sur le prédicteur étant normalement distribué avec une moyenne de 0 et un écart-type de 1.

Puissance pour la Régression Logistique dans IBM SPSS Lire la suite »

Exemple de régression logistique dans IBM SPSS

Considérons les données suivantes tirées de Denis (2016) : Données hypothétiques sur les capacités quantitatives et verbales pour ceux recevant une formation (Groupe = 1) versus ceux ne recevant pas de formation (Groupe = 0) Sujet Quantitatif Verbal Groupe de formation 1 5 2 0 2 2 1 0 3 6 3 0 4 9 7 0 5 8 9 0 6 7 8 1 7 9 8 1 8 10 10 1 9 10 9 1 10 9 8 1 Ces données comprennent des scores quantitatifs et verbaux pour 10 participants, dont la moitié a suivi un programme de formation (codé 1), tandis que l’autre moitié ne l’a pas suivi (codé 0). Nous souhaitons savoir si les scores quantitatifs et verbaux permettent de prédire à quel groupe de formation un participant appartient. Notre variable réponse est le groupe de formation (T), tandis que nos prédicteurs sont les scores quantitatifs (Q) et verbaux (V).  Nous entrons les données dans SPSS comme suit : Pour effectuer la régression logistique dans SPSS, nous sélectionnons : ANALYSE → RÉGRESSION → LOGISTIQUE BINAIRE Nous déplaçons Q dans la boîte des covariables et T dans la boîte des variables dépendantes. Nous nous assurons que la méthode « EntreZ » est sélectionnée. Cliquez sur OK pour exécuter la procédure. Nous sélectionnerons plus d’options plus tard. Pour l’instant, nous exécutons l’analyse pour voir les principaux coefficients de sortie de la régression logistique et discutons de leur interprétation différente par rapport à celle de la régression des moindres carrés ordinaires : Nous ignorons le terme constant et passons directement à l’interprétation de l’effet pour Q. Notez que la valeur de B est égale à 0,967 et n’est pas statistiquement significative (p = 0,120). Pour l’instant, nous nous intéressons surtout à discuter de son interprétation et de sa différence par rapport aux coefficients de la régression des moindres carrés ordinaires. Rappelons comment nous interpréterions B = 0,967 dans un problème de régression ordinaire : Pour une augmentation d’une unité de Q, nous nous attendrions, en moyenne, à une augmentation de 0,967 unité de la variable dépendante. Cette interprétation est incorrecte pour une régression logistique, car notre variable dépendante n’est pas une variable continue. Elle est binaire. Il n’a guère de sens de dire que nous nous attendons à une augmentation de 0,967 d’une variable dépendante lorsque cette variable ne peut prendre que deux valeurs : formation = 1 vs formation = 0. Nous devons interpréter le coefficient différemment. Dans la régression logistique, le coefficient 0,967 est en réalité exprimé en unités de quelque chose appelé le logit, qui est le log des cotes. Qu’est-ce que cela signifie ? Nous le découvrirons dans un instant. Pour l’instant, il suffit de savoir que l’interprétation correcte du coefficient est la suivante : Pour une augmentation d’une unité de Q, nous nous attendrions, en moyenne, à une augmentation de 0,967 unité du logit de la réponse. Cette interprétation, bien que correcte, a peu de sens intuitif car les « logits » sont difficiles à interpréter seuls. Comme mentionné, les logits sont le log des cotes (généralement le log naturel, ln, c’est-à-dire en base e), où les cotes d’un événement sont définies comme le rapport entre la probabilité que l’événement se produise et 1 moins cette probabilité : cotes = p/(1-p) Prendre le log naturel transforme les cotes en quelque chose d’approximativement linéaire, ce qui est le logit mentionné précédemment. Les logits sont malaisés à interpréter, mais heureusement, nous pouvons les retransformer en cotes par une simple transformation qui consiste à exponencier le logit comme suit : Dans cette transformation, le nombre 0,967 est le coefficient du logit obtenu à partir de la régression logistique, et l’exposant p sur 1-p représente les cotes. Ainsi, le log naturel des cotes est la partie ln(p/1-p). Lorsque nous exponencions ce coefficient en base e, qui est la fonction exponentielle égale à environ 2,718, nous retrouvons les cotes, et le nombre 2,63 s’interprète comme suit : Pour une augmentation d’une unité de Q, les cotes d’être dans le groupe 1 par rapport au groupe 0 sont, comme attendu, de 2,63 contre 1. Que signifie cela ? Si Q n’avait aucun effet, alors pour une augmentation d’une unité de Q, les cotes d’être dans le groupe 1 par rapport au groupe 0 seraient de 1 contre 1, et nous obtiendrions un logit de 0. Le fait qu’elles soient de 2,63 contre 1 signifie qu’à mesure que Q augmente d’une unité, la chance d’être dans le groupe 1 par rapport au groupe 0 est également plus grande. Le nombre 2,63 dans ce contexte est souvent appelé rapport de cotes. Si les cotes avaient été inférieures à 1 contre 1, alors une augmentation de Q suggérerait une diminution de la chance d’être dans le groupe 1 par rapport au groupe 0. Comme les cotes sont centrées sur 1,0, nous pouvons également interpréter le nombre 2,63 de la manière équivalente suivante : Pour une augmentation d’une unité de Q, les cotes sont, comme attendu, 2,63 fois plus grandes d’être dans le groupe 1 par rapport au groupe 0, ce qui se traduit par une augmentation de 163 %. Autrement dit, une augmentation d’une unité de Q multiplie les cotes d’être dans le groupe 1 par 2,63. Pour référence, des cotes de 2 représenteraient une augmentation de 100 % (puisque 2 est le double de 1). Mais comme les logits, les cotes sont difficiles à interpréter (sauf si vous êtes un parieur ou que vous misez sur des courses de chevaux !). Heureusement encore, nous pouvons transformer les cotes d’abord en un logit prédit, puis l’utiliser pour transformer cela en une probabilité, ce qui est beaucoup plus intuitif pour la plupart d’entre nous. À titre d’exemple, calculons d’abord le logit prédit yi‘ pour quelqu’un ayant un score de 5 en quantitatif. Rappelons que la constante dans notre sortie SPSS était égale à -7,647, donc notre équation estimée pour prédire le logit de quelqu’un ayant un score de 5 en quantitatif est la suivante : yi‘ =

Exemple de régression logistique dans IBM SPSS Lire la suite »