Gestion des Données Manquantes dans SPSS

Données Manquantes dans SPSS : Réfléchissez à Deux Fois Avant de Remplacer les Données ! Idéalement, lorsque vous collectez des données pour une expérience ou une étude, vous devriez pouvoir recueillir des mesures pour chaque participant, et votre fichier de données serait complet. Cependant, il arrive souvent que des données soient manquantes. Par exemple, supposons que notre ensemble de données sur le QI, au lieu d’être complet, présente quelques observations manquantes : Nous pouvons constater que pour les cas 8, 13 et 18, il y a des données manquantes. SPSS offre de nombreuses fonctionnalités pour remplacer les données manquantes, mais si elles doivent être utilisées, cela doit être fait avec une extrême prudence. Toute tentative de remplacer une donnée manquante, quelle que soit la méthode utilisée, reste une « estimation éclairée » de ce qu’aurait pu être cette donnée si le participant avait répondu ou si elle n’avait pas été perdue. L’objectif de votre investigation scientifique est de faire de la science, ce qui signifie mesurer des objets dans la nature. Dans une telle investigation, les données sont votre seul lien avec ce que vous étudiez. Remplacer une valeur manquante signifie que vous êtes prêt à « deviner » ce qu’aurait pu être l’observation, ce qui enlève son caractère de reflet direct de votre processus de mesure. Dans certains cas, comme dans les designs longitudinaux ou à mesures répétées, éviter les données manquantes est difficile car les participants peuvent abandonner l’étude ou simplement ne pas se présenter. Cependant, cela ne signifie pas nécessairement que vous devriez automatiquement remplacer leurs valeurs. Posez-vous des questions sur vos données manquantes. Pour nos données de QI, bien que nous puissions attribuer les observations manquantes pour les cas 8 et 13 comme étant « manquantes au hasard », il est plus difficile de tirer cette conclusion pour le cas 18, où deux points sont manquants. Pourquoi manquent-ils ? Le participant a-t-il mal compris la tâche ? A-t-il eu l’opportunité de répondre ? Ce sont les types de questions que vous devriez vous poser avant de remplacer les données manquantes dans SPSS. Avant d’examiner les méthodes de remplacement, gardez à l’esprit le principe suivant : Ne remplacez jamais les données manquantes comme un processus ordinaire et habituel de l’analyse des données. Demandez-vous d’abord POURQUOI la donnée pourrait être manquante et si elle est manquante « au hasard » ou due à une erreur systématique ou à une omission dans votre expérience. Si elle est due à un schéma systématique ou à une mauvaise compréhension des instructions par le participant, c’est un scénario très différent de celui où l’observation est manquante au hasard. Si les données sont manquantes au hasard, leur remplacement est généralement plus approprié que s’il existe un schéma systématique. Soyez curieux à propos de vos données manquantes au lieu de simplement chercher à les remplacer. Méthodes de Remplacement des Données Manquantes dans SPSS Parcourons quelques approches pour remplacer les données manquantes. Nous démontrerons ces procédures pour notre variable `quant`. Pour accéder à cette fonctionnalité : TRANSFORMER → REMPLACER LES VALEURS MANQUANTES 1. Remplacement par la Moyenne de la Série Dans ce premier exemple, nous remplacerons l’observation manquante par la moyenne de la série. Déplacez `quantitatif` vers Nouvelles variables. SPSS renommera automatiquement la variable en « quantitatif_1« , mais assurez-vous que **Series mean** est sélectionné. La moyenne de la série est définie comme la moyenne de toutes les autres observations pour cette variable. La moyenne pour `quant` est de 66,89 (vérifiez cela vous-même via Descriptives). Ainsi, si SPSS remplace correctement les données manquantes, la nouvelle valeur imputée pour les cas 8 et 18 devrait être 66,89. Cliquez sur **OK** : SPSS nous fournit un rapport succinct indiquant que deux valeurs manquantes ont été remplacées (pour les cas 8 et 18, sur un total de 30 cas dans notre ensemble de données). La fonction de création est la SMEAN pour quantitatif (ce qui signifie qu’il s’agit de la moyenne de la série pour la variable quantitatif). Dans la vue des données, SPSS nous montre la nouvelle variable créée avec les valeurs manquantes remplacées. 2. Remplacement par la Moyenne des Points Proches Une autre option offerte par SPSS est de remplacer par la moyenne des points proches. Pour cette option, sous Méthode, sélectionnez Moyenne des points proches, puis cliquez sur Modifier pour l’activer dans la fenêtre Nouvelle (s) variable (s) . sous Étendue des points proches, nous utiliserons le nombre 2 (valeur par défaut). . Cela signifie que SPSS prendra les deux observations valides au-dessus du cas donné et les deux en dessous, et utilisera cette moyenne comme valeur de remplacement. – Pour le cas 8, SPSS a pris la moyenne des deux cas au-dessus et des deux cas en dessous de l’observation manquante et l’a remplacée par cette moyenne (47,25). – Pour le cas 18, SPSS a pris la moyenne des observations 74, 76, 82 et 74 et les a moyennées pour obtenir 76,50, qui est la valeur imputée manquante. Autres Méthodes de Remplacement Remplacer par la moyenne comme nous l’avons fait ci-dessus est une méthode simple, mais souvent pas la plus préférée . SPSS propose d’autres alternatives, notamment le remplacement par la médiane, l’interpolation linéaire et des méthodes plus sophistiquées telles que l’estimation du maximum de vraisemblance. SPSS propose également des applications utiles pour évaluer les schémas de données manquantes via valeurs manquantes et l’imputation multiple. Exemple d’Analyse des Données Manquantes avec SPSS Comme exemple de la capacité de SPSS à identifier les schémas dans les données manquantes et à remplacer ces valeurs en utilisant l’imputation, nous pouvons effectuer les étapes suivantes pour plus de détails sur cette approche) : ANALYSE → IMPUTATION MULTIPLE → ANALYSE DE MOTIFS   L’analyse des schémas peut vous aider à identifier s’il existe des caractéristiques systématiques dans les données manquantes ou si vous pouvez supposer qu’elles sont aléatoires. SPSS nous permet de remplacer les valeurs manquantes via : IMPUTATION MULTIPLE → VALEURS DE DONNÉES MANQUANTES ENTRÉES – Déplacez les variables d’intérêt vers les variables dans le modèle. – Ajustez les Imputations à 5 (vous pouvez expérimenter avec des

Gestion des Données Manquantes dans SPSS Lire la suite »