Wednesday 1 February 2017

Comment Faire Pour Gérer Missing Data In Stata Forex

16.1.2 Principes généraux relatifs aux données manquantes Il existe une vaste documentation sur les méthodes statistiques pour traiter les données manquantes. Nous présentons brièvement quelques concepts clés et formulons quelques recommandations générales pour les auteurs de l'étude Cochrane. Il est important de penser pourquoi les données peuvent être manquantes. Les statisticiens utilisent souvent les termes manquant au hasard et ne manquent pas au hasard pour représenter différents scénarios. Les données sont manquantes au hasard si le fait qu'elles sont manquantes n'est pas liée aux valeurs réelles des données manquantes. Par exemple, si certains questionnaires sur la qualité de vie étaient perdus dans le système postal, il est peu probable qu'ils soient liés à la qualité de vie des participants à l'essai qui ont rempli les formulaires. Dans certains cas, les statisticiens font la distinction entre les données manquantes au hasard et les données manquant complètement au hasard, bien que, dans le contexte d'une revue systématique, la distinction soit peu probable. Les données qui manquent au hasard peuvent ne pas être importantes. Les analyses fondées sur les données disponibles tendent à être impartiales, bien que sur la base d'une taille d'échantillon plus petite que l'ensemble de données initial. On dit que les données ne manquent pas au hasard si le fait qu'elles sont manquantes est lié aux données manquantes actuelles. Par exemple, dans un essai sur la dépression, les participants qui avaient une rechute de la dépression pourraient être moins susceptibles de participer à l'entrevue finale de suivi et plus susceptibles d'avoir des données sur les résultats manquants. Ces données ne sont pas ignorables dans le sens où une analyse des données disponibles seules sera typiquement biaisée. Le biais de publication et le biais de notification sélective conduisent par définition à des données qui ne sont pas manquantes au hasard, et l'attrition et les exclusions des individus au sein des études le font souvent aussi bien. Les principales options pour traiter les données manquantes sont. 1.160160160160160160160 analyser uniquement les données disponibles (c'est à dire ignorer les données manquantes) en traitant les données manquantes avec des valeurs de remplacement et en les traitant comme s'ils étaient observés (par exemple, la dernière observation reportée, imputant un résultat présumé, La moyenne, en imputant sur la base des valeurs prédites à partir d'une analyse de régression) 3.160160160160160160160imposer les données manquantes et de comptabiliser le fait que ceux ci ont été imputés avec l'incertitude (par exemple, l'imputation multiple, méthodes d'imputation simple (comme point 2) avec l'ajustement à l'erreur type 4.160160160160160160160 En utilisant des modèles statistiques pour permettre les données manquantes, en faisant des hypothèses sur leurs relations avec les données disponibles. L'option 1 peut être appropriée lorsque l'on peut supposer que des données manquent au hasard. Les options 2 à 4 sont des tentatives pour traiter les données manquantes au hasard. L'option 2 est pratique dans la plupart des cas et très couramment utilisée dans les examens systématiques. Toutefois, elle ne reconnaît pas l'incertitude des valeurs et des résultats imputés, généralement dans des intervalles de confiance trop étroits. Les options 3 et 4 exigeraient la participation d'un statisticien averti. Quatre recommandations générales pour traiter les données manquantes dans les revues Cochrane sont les suivantes. Dans la mesure du possible, communiquez avec les chercheurs initiaux pour demander des données manquantes. Définir explicitement les hypothèses des méthodes utilisées pour faire face aux données manquantes: par exemple, si les données sont présumées manquantes au hasard ou si les valeurs manquantes ont été supposées avoir une valeur particulière, comme un résultat médiocre. Effectuer des analyses de sensibilité pour évaluer la façon dont les résultats sensibles sont à des changements raisonnables dans les hypothèses qui sont faites (voir chapitre 9, section 9.7). Répondre à l'impact potentiel des données manquantes sur les conclusions de l'examen dans la section Discussion. NOTICE: Le groupe de consultation statistique IDRE sera la migration du site Web au WordPress CMS en Février pour faciliter la maintenance et la création de nouveaux contenus. Certaines de nos anciennes pages seront supprimées ou archivées de sorte qu'elles ne seront plus conservées. Nous essaierons de maintenir les redirections afin que les anciennes URL continuent à fonctionner de la meilleure façon possible. Stata FAQ: Comment puis je voir le nombre de valeurs manquantes et les modèles de valeurs manquantes dans mon fichier de données Parfois, un ensemble de données peut avoir quotholesquot en elle, Dire des valeurs manquantes. Certaines procédures statistiques telles que l'analyse de régression ne fonctionneront pas aussi bien, ou du tout, sur un ensemble de données avec des valeurs manquantes. Les observations avec des valeurs manquantes doivent être supprimées ou les valeurs manquantes doivent être remplacées pour qu'une procédure statistique produise des résultats significatifs. La plupart des programmes statistiques (y compris SAS, SPSS et Stata) supprimeront automatiquement ces cas de toute analyse effectuée (sans supprimer les cas de l'ensemble de données). C'est pourquoi le quotnquot varie souvent de l'analyse à l'analyse, même si l'ensemble de données est le même. Différentes variables ont des quantités différentes de données manquantes et, par conséquent, la modification des variables dans un modèle modifie le nombre de cas avec des données complètes sur toutes les variables du modèle. Parce que le logiciel supprime les cas avec des valeurs manquantes pour nous, il est très facile de quotforgetquot sur les données manquantes entièrement. Cependant, la présence de données manquantes peut influencer nos résultats, surtout lorsqu'un ensemble de données ou même une seule variable, a un pourcentage élevé de valeurs manquantes. Il est donc toujours conseillé de vérifier un ensemble de données pour les données manquantes et de réfléchir à la manière dont les données manquantes peuvent influencer nos analyses. Cette page montre quelques méthodes de recherche des valeurs manquantes dans un jeu de données, ces informations peuvent être utilisées pour prendre des décisions mieux informées sur la façon de gérer les valeurs manquantes. Avant de commencer, nous avons besoin de certaines données avec des valeurs manquantes, le code ci dessous entrées un petit jeu de données dans Stata, puis affiche ces données. Dans un petit ensemble de données, comme celui ci dessous, il est très facile de regarder les données brutes et de voir où les valeurs sont manquantes. Cependant, lorsque les ensembles de données sont importants, nous avons besoin d'une méthode plus systématique pour examiner notre ensemble de données pour les valeurs manquantes. Ci dessous nous vous montrons quelques façons de le faire, en utilisant les données ci dessous comme un exemple. 1. Nombre de valeurs manquantes par rapport au nombre de valeurs non manquantes La première chose que nous allons faire est de déterminer quelles variables ont beaucoup de valeurs manquantes. Nous avons créé un petit programme Stata appelé mdesc qui compte le nombre de valeurs manquantes dans les variables numériques et de caractère. Vous pouvez télécharger mdesc à partir de Stata en tapant findit mdesc (voir Comment puis je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de finidit). Ensuite, vous pouvez exécuter mdesc pour une ou plusieurs variables comme illustré ci dessous. Nous connaissons maintenant le nombre de valeurs manquantes dans chaque variable. Par exemple, salepric variable a quatre valeurs manquantes et saltoapr a deux valeurs manquantes. 2. Obtenir le nombre de valeurs manquantes par observation Nous pouvons également examiner la répartition des valeurs manquantes entre les observations. Le code ci dessous crée une variable appelée nmis qui donne le nombre de valeurs manquantes pour chaque observation. La fonction rmiss2 () utilisée ici est une extension de la fonction egen rmiss (). Il compte le nombre de valeurs manquantes dans la varlist. Rmiss2 () accepte à la fois les variables de chaîne et les variables numériques. Vous pouvez télécharger rmiss2 () via Internet à partir de Stata en tapant findit rmiss2 (voir Comment puis je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit ). Ci dessous nous tabulons la variable que nous venons de créer. En regardant le tableau des fréquences, nous savons qu'il y a quatre observations sans valeurs manquantes, neuf observations avec une valeur manquante, une observation avec deux valeurs manquantes et une observation avec trois valeurs manquantes. 3. Modèles de valeurs manquantes Nous pouvons également examiner les modèles de valeurs manquantes. Vous pouvez télécharger mvpatterns via Internet à partir de Stata en tapant findit mvpatterns (voir Comment puis je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). La commande mvpatterns produit une sortie pour toutes les variables dans l'ensemble de données, pour les données manquantes à travers un sous ensemble de variables, une liste de variables peut être incluse, par exemple, mvpatterns landval improval totval. La sortie produite par mvpatterns est montrée ci dessous. Le premier tableau énumère les variables, leur type de mémoire (type), le nombre d'observations (obs), le nombre de valeurs manquantes (mv) et l'étiquette de variable si les variables en ont un. Le second tableau contient les informations sur le schéma des valeurs manquantes. Le premier bloc de colonnes dans la sortie montre les modèles de données manquantes. Dans le bloc, chaque variable est représentée par une colonne, une quotquot indique que les valeurs de cette variable sont présentes dans un modèle donné de données manquantes, une quot. quot indique qu'elles sont manquantes. Les colonnes suivent le même ordre que la liste des variables dans la première table, de sorte que la première colonne dans la sortie ci dessous représente landval. La deuxième amélioration. etc. Les modèles de données manquants sont répertoriés en fréquence descendante, ici le schéma de données manquantes le plus courant est des données complètes (quotquot). Le tableau indique également le nombre de valeurs manquantes dans ce modèle (mv) et le nombre de cas avec ce modèle de données manquantes (freq). Sur la base des informations du deuxième tableau, nous savons qu'il y a quatre observations sans valeurs manquantes, deux cas manquant sur la seule variable salepric. Et une observation avec des valeurs manquantes sur l'amélioration. Salepric et saltoapr. 4. Lorsque toutes les variables d'intérêt sont numériques Les exemples ci dessus fonctionnent indépendamment du fait que les variables d'intérêt (c'est à dire les variables dont les schémas de données manquants que vous souhaitez examiner) sont numériques ou de chaîne. Lorsque toutes les variables que vous souhaitez vérifier pour les valeurs manquantes sont numériques, nous pouvons utiliser un programme appelé misschk pour simplifier les étapes d'examen des données manquantes dans notre jeu de données. (Note: les variables numériques incluent celles avec des étiquettes de valeurs qui sont des chaînes, aussi longtemps que les valeurs réelles des variables sont stockées sous forme de nombres.) Vous pouvez télécharger misschk à partir de Stata en tapant findit misschk (voir Comment puis je utiliser la commande findit pour Rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Ci dessous la commande pour misschk. Nous avons répertorié les cinq variables dans notre ensemble de données dans la liste des variables après la commande misschk. Cependant, nous aurions pu laisser la liste des variables en blanc (c'est à dire utilisée seulement misschk. Gen (miss) au lieu), si nous avions, misschk aurait exécuté en utilisant toutes les variables de notre dataset. La liste des variables n'est nécessaire que si nous voulons lancer misschk uniquement sur certaines variables de notre jeu de données. L'option gen (miss) indique à misschk que nous voulons créer deux nouvelles variables, qui commencent toutes deux par quotmissquot. Ces deux variables seront nommées misspattern et missnumber. La variable misspattern indique laquelle des données manquantes suit chaque cas. La variable nombre_nom indique le nombre de valeurs manquantes pour chaque cas. La sortie pour misschk se compose de trois tables. Le premier tableau énumère le nombre de valeurs manquantes, ainsi que le pourcentage manquant pour chaque variable, ce qui est similaire au tableau produit par mdesc dans la partie 1 ci dessus. Ce tableau contient également une colonne marquée qui attribue à chaque variable un nombre qui est utilisé pour identifier la variable plus tard dans la sortie. Le deuxième tableau indique la répartition des valeurs manquantes. Le modèle de disparition est décrit à l'aide des nombres de variables de la première table et des caractères de soulignement (). Les nombres indiquent quelles variables manquent dans ce modèle, les caractères de soulignement représentent des observations non manquantes. Par exemple, à partir du deuxième tableau, nous voyons que deux cas ont des valeurs manquantes sur la variable 1 (landval), mais des données complètes sur toutes les autres variables, et qu'un cas manque des données sur les variables 2, 4 et 5. La ligne du bas montre Que quatre cas ne manquent pas de valeurs du tout (tous les underscores). Ce tableau présente les mêmes informations générées dans la troisième partie ci dessus, mais dans un format légèrement différent. Le modèle de données manquantes pour chaque cas est décrit dans la variable misspattern. Enfin, le troisième tableau montre la répartition du nombre de valeurs manquantes par cas. C'est la même information discutée ci dessus dans la partie 2. Le nombre de variables que chaque cas est manquant est également contenu dans la variable nombre erreur. Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site Web particulier, d'un livre ou d'un produit logiciel par l'Université de Californie.


No comments:

Post a Comment