La normalité est une condition indispensable à vérifier pour la réalisation des tests paramétriques en statistiques.
Deux méthodes sont à retenir :
- La méthode graphique : examen visuel de la représentation graphique (l’histogramme, QQ-plot ou la boîte à moustache). Facile mais subjective.
- Les tests de normalité : Le test de Kolmogrov-Smirnov, Lilliefors et test de Shapiro Wilk largement utilisés. Le test Shapiro -Wilk recommandé pour les échantillons de petite taille.
- Les deux méthodes (graphique et les tests de normalité): meilleure compréhension de la distribution des variables.
La normalité, la distribution gaussienne ou la distribution en cloche tient une place centrale en statistique. Il s’agit d’une condition indispensable pour la réalisation des tests dits paramétriques. Dans les études cliniques comme c’est le cas pour d’autres études, choisir entre les tests paramétriques et non paramétrique fait appel toujours à vérifier la distribution des données afin de trancher si les conditions des tests sont valides ou non.
Comment savoir si une telle distribution est normale ou non ? la réponse à cette question fera le corps de cet article.
En principe, deux méthodes sont à savoir : la méthode graphique et celle numérique moyennant des tests de normalité que nous allons expliciter par la suite.
La méthode graphique
Commençant d’abord par la méthode graphique. La méthode graphique permet de se faire une idée sur la forme de distribution empirique des données en la comparant avec la fameuse forme en cloche que nous connaissons tous. Plusieurs logiciels statistiques permettent de projeter en seul graphique la distribution empirique et celle théorique relative à la distribution normale comme c’est le cas du logiciel SPSS et bien d’autres. L’examen visuel permet de repérer si effectivement cet écart est important ou non. Bien que cet examen visuel soit facile à réaliser, néanmoins, il reste subjectif et dépend en grande partie de l’interprétation du chercheur.
Histogramme (Histogram) :
Comme nous savons tous, l’histogramme est une représentation graphique utilisée pour les variables quantitatives continues. Il permet d’inspecter rapidement la forme de la distribution. La figure 1 représente une distribution normale symétrique; les deux suivantes sont anormale et asymétrique étalée à gauche (fig 2) et à droite (fig 3).
La boîte à moustache (Boxplot)
Il s’agit de la visualisation graphique la plus couramment utilisée par les chercheurs en raison de sa richesse en informations (Min, Max, Q1, Q2, Q3, IQR). Toute forme particulière de ce graphique par rapport à la distribution normale fait penser à la violation de l’hypothèse de normalité. La première figure présente une distribution normale étant donné que la médiane se trouve au milieu entre la valeur du premier quartile et le troisième quartile. Toute déviation de la médiane du centre, présente une distribution asymétrique donc non normale. C’est le cas des deux dernières figures ci-dessous.
QQ-Plot
Le troisième type de graphique que vous pouvez choisir, est le graphique QQ-plot qui permet de vérifier si la série statistique suit bien la distribution théorique choisie. La figure suivante présente deux distributions une théorique présentée par la droite et celle empirique ou observé présentée par les points projetés.
Les tests de normalité
Après avoir passé en revue la méthode graphique, reste à savoir quels sont les tests statistiques qu’il faut mobiliser afin de vérifier l’hypothèse de normalité. Plusieurs tests de normalité sont à votre disposition comme : Kolmogorov-Smirnov (K-S) test , Lilliefors corrected K-S test ,Shapiro-Wilk test , Anderson-Darling test , Cramer-von Mises test, D’Agostino skewness test, Anscombe-Glynn kurtosis test , D’Agostino-Pearson omnibus test et Jarque-Bera test .
Dans notre article , nous allons mettre l’accent sur trois tests les plus répandus à savoir : Kolmogorov-Smirnov (K-S) test , Lilliefors corrected K-S test et Shapiro-Wilk test.
Le Kolmogrov-Smirnov (KS):
C’est le test le plus communément utilisé par les chercheurs pour décider de la normalité des données. Le test repose sur la comparaison de la distance entre la distribution théorique et celle empirique . Plus les 2 courbes dévient, plus la probabilité de rejeter l’hypothèse de normalité est grande et vice versa.
Comme d’autres tests, ce test repose sur deux hypothèses :
H0 (nulle) : la distribution est gaussienne.
H1 (alternative) : La distribution est non gaussienne.
Si la p value des test KS est inférieur à 5%, on rejette H0 et on conclue que la distribution est non gaussienne.
Selon les études de simulation par la méthode Monte-Carlo, le test KS a une puissance statistique faible par rapport aux autres tests et nécessite une taille d’échantillon assez conséquente. La présence des valeurs aberrantes (outliers) le rend plus sensible.
Cet exemple fictif présente les résultats du test de normalité de Kolmogrov-smirnov pour deux variables continues « Age » et « Poids ». La P-value du test KS était non significatif pour la variable Age ce qui nous conduit à accepter H0 selon laquelle la variable Age suit une distribution normale. A contrario, le test de KS était significatif. Autrement dit , le poids suit une distribution anormale.
Le test de Lilliefors
Le test de Lilliefors est une version améliorée du test de Kolmogorov-Smirnov permettant de tester l’hypothèse nulle selon laquelle les données soient issues d’une loi normale quand les paramètres de la loi normale ne sont pas connus. Comme le test de Kolmogorov-Smirnov (voir plus haut), le test de Lilliefors s’appuie sur deux hypothèses à savoir :
H0 (nulle) : la distribution est gaussienne. H1 (alternative) : La distribution est non gaussienne.
Si la p value des test est inférieur à 5%, on rejette H0 et on conclue que la distribution est non gaussienne.
Ce test a été beaucoup critiqué à cause de sa puissance statistique. Certaines déconseillent l’utilisation de ce dernier et recommande le test de Shapiro-Wilk comme une alternative.
Le test de Shapiro Wilk
le test de Shapiro-Wilk a été développé par deux statisticiens Shapiro et Wilk en 1988. Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En comparaison avec les autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50). La statistique W peut donc être interprétée comme le coefficient de détermination (le carré du coefficient de corrélation) entre la série des quantiles générées à partir de la loi normale et les quantiles empiriques obtenues à partir des données. Plus W est élevé, plus la compatibilité avec la loi normale est crédible.
L’exemple suivant montre les résultats du test de normalité de Kolmogrov-Smirnov et Shapiro-Wilk
La p-value des deux tests sont tous supérieurs à la valeur seuil de 5% ce qui nous amène à accepter à H0 selon laquelle la variable Age est normalement distribuée.
Putting all together
Ce présent article, comme cela a été mentionné précédemment, vise à décrire plutôt les différentes étapes à suivre pour évaluer l’hypothèse de normalité. Une hypothèse fondamentale pour l’application des tests paramétriques.
La normalité statistique, comment puis-je la vérifier 👀👀👀 ?
D’abord commencez par les représentations graphiques (histogramme, Boîte à moustache, QQ-plot). Le choix de l’une de ces représentations dépend de vos propres préférences mais d’après mon expérience avec le monde de la data, je recommande vivement la boite à moustache qui reste une visualisation graphique riche en information (Min, Max, Q1, Q2, Q3).
Que faire si la méthode graphique n’est pas concluante ?
Très simple, passer à l’étape suivante, faites les tests de normalités que nous avons précédemment développés. Nous avons énuméré les plus communément utilisées (KS -Shapiro-Wilk-Lilliefors) mais il existe d’autres tests que nous n’avons pas pu couvrir dans cet article.
Lequel des tests est le plus puissant (rassurant 😊 pour vous) ? La littérature statistique recommande le test de Shapiro-Wilk notamment pour les échantillons de petite taille (Dekker ; 2002.) (n<50) en raison de sa puissance statistique comparativement aux autres tests.
Que faire si la distribution de mes variables est non gaussienne ? La réponse à cette question fera l’objet du prochain article.
Bref, la normalité en statistique
- Condition indispensable à vérifier pour la réalisation des tests paramétriques.
- Deux méthodes sont à retenir :
- La méthode graphique : examen visuel de la représentation graphique (l’histogramme, QQ-plot ou la boîte à moustache). Facile mais subjective.
- Les tests de normalité : Le test Shapiro -Wilk recommandé pour les échantillons de petite taille.
- Associer Les deux méthodes (graphique et les tests de normalité) pour une meilleure compréhension de la distribution des variables.
Lectures recommandées :
- Altman DG, Bland JM. Statistics notes: the normal distribution. Bmj. 1995;310(6975):298
- Royston P. Estimating departure from normality. Stat Med. 1991;10(8):1283-93
- Altman DG, Bland JM. Detecting skewness from summary information. Bmj. 1996;313(7066):1200.
- Steinskog DJ. A cautionary note on the use of the KolmogorovSmirnov test for normality.
Jamal Tikouk
Bonjour, Merci pour ces informations. Cette fiche est très claire et simple à retenir.
Pourriez-vous me dire s’il vous plaît si l’on entend la même chose par “loi normale” et “linéaire”. Je dois faire des régressions, et j’ai lu que “La régression linéaire consiste à relier des variables à une ligne droite, tandis que la régression non linéaire relie les variables dans une relation non linéaire (courbe)”. Du coup je me demandais comment je pouvais savoir cela, s’il y avait un test pour l’évaluer ou si cela voulait dire la même chose que la loi normale? puisque selon si c’est linéaire ou pas, nous n’utiliserons pas les mêmes méthodes de régressions.
Bonjour
Régression et Loi normale ne correspondent pas à la même chose.
La loi normale concerne la distribution des variables quantitative selon la courbe de Gauss (dites en Cloche). Dans ce cas, on exprime la variable par une estimation de la moyenne et de l’écart-type de l’échantillon.
Le régression correspond à une modélisation ayant pour but de prédire une variable explicative (ex: Tabac) par rapport à une variable à expliquer (Kc du poumon Oui/non) en ajustant sur des facteurs de confusion (ex: age, sexe masculin…)
Il existe plusieurs type de régression selon le type de modèle que l’on souhaite.
Bon courage