EpiRheum.com
Subscribe
  • Accueil
  • Pour Commencer
  • Épidémiologie Clinique
    • Fondamentaux
    • Biostatistiques
    • Rédaction scientifique
  • Projets
    • Les Coulisses
    • Travaux Personnels
    • Enseignement Intelligent
  • Avis d’experts
  • A propos
  • Contact
No Result
View All Result
EpiRheum.com
  • Accueil
  • Pour Commencer
  • Épidémiologie Clinique
    • Fondamentaux
    • Biostatistiques
    • Rédaction scientifique
  • Projets
    • Les Coulisses
    • Travaux Personnels
    • Enseignement Intelligent
  • Avis d’experts
  • A propos
  • Contact
No Result
View All Result
EpiRheum.com
No Result
View All Result
Acceuil Épidémiologie Clinique Biostatistiques

Comment savoir si mes données suivent une distribution normale ?

Par Ihsane Hmamouchi
August 20, 2021
Biostatistiques
Temps de lecture: 9min read
4
Comment savoir si mes données suivent une distribution normale ?
Share on FacebookShare on TwitterShare on LinkedinShare on WhatsAppShare by Email

La normalité est une condition indispensable à vérifier pour la réalisation des tests paramétriques en statistiques.
Deux méthodes sont à retenir :

  • La méthode graphique : examen visuel de la représentation graphique (l’histogramme, QQ-plot ou la boîte à moustache). Facile mais subjective.
  • Les tests de normalité : Le test de Kolmogrov-Smirnov, Lilliefors et test de Shapiro Wilk largement utilisés. Le test Shapiro -Wilk recommandé pour les échantillons de petite taille.
  • Les deux méthodes (graphique et les tests de normalité): meilleure compréhension de la distribution des variables.

La normalité, la distribution gaussienne ou la distribution en cloche tient une place centrale en statistique. Il s’agit d’une condition indispensable pour la réalisation des tests dits paramétriques. Dans les études cliniques comme c’est le cas pour d’autres études, choisir entre les tests paramétriques et non paramétrique fait appel toujours à vérifier la distribution des données afin de trancher si les conditions des tests sont valides ou non.

Comment savoir si une telle distribution est normale ou non ? la réponse à cette question fera le corps de cet article.

En principe, deux méthodes sont à savoir : la méthode graphique et celle numérique moyennant des tests de normalité que nous allons expliciter par la suite.

La méthode graphique

Commençant d’abord par la méthode graphique. La méthode graphique permet de se faire une idée sur la forme de distribution empirique des données en la comparant avec la fameuse forme en cloche que nous connaissons tous. Plusieurs logiciels statistiques permettent de projeter en seul graphique la distribution empirique et celle théorique relative à la distribution normale comme c’est le cas du logiciel SPSS et bien d’autres. L’examen visuel permet de repérer si effectivement cet écart est important ou non. Bien que cet examen visuel soit facile à réaliser, néanmoins, il reste subjectif et dépend en grande partie de l’interprétation du chercheur.

Histogramme (Histogram) :

Comme nous savons tous, l’histogramme est une représentation graphique utilisée pour les variables quantitatives continues. Il permet d’inspecter rapidement la forme de la distribution. La figure 1 représente une distribution normale symétrique; les deux suivantes sont anormale et asymétrique étalée à gauche (fig 2) et à droite (fig 3).

I6 Comment savoir si mes données suivent une distribution normale ?

La boîte à moustache (Boxplot) 

Il s’agit de la visualisation graphique la plus couramment utilisée par les chercheurs en raison de sa richesse en informations (Min, Max, Q1, Q2, Q3, IQR). Toute forme particulière de ce graphique par rapport à la distribution normale fait penser à la violation de l’hypothèse de normalité. La première figure présente une distribution normale étant donné que la médiane se trouve au milieu entre la valeur du premier quartile et le troisième quartile. Toute déviation de la médiane du centre, présente une distribution asymétrique donc non normale. C’est le cas des deux dernières figures ci-dessous.

I3 Comment savoir si mes données suivent une distribution normale ?

QQ-Plot 

Le troisième type de graphique que vous pouvez choisir, est le graphique QQ-plot qui permet de vérifier si la série statistique suit bien la distribution théorique choisie. La figure suivante présente deux distributions une théorique présentée par la droite et celle empirique ou observé présentée par les points projetés.

I4 Comment savoir si mes données suivent une distribution normale ?

Les tests de normalité

Après avoir passé en revue la méthode graphique, reste à savoir quels sont les tests statistiques qu’il faut mobiliser afin de vérifier l’hypothèse de normalité. Plusieurs tests de normalité sont à votre disposition comme : Kolmogorov-Smirnov (K-S) test , Lilliefors corrected K-S test ,Shapiro-Wilk test , Anderson-Darling test , Cramer-von Mises test, D’Agostino skewness test, Anscombe-Glynn kurtosis test , D’Agostino-Pearson omnibus test et Jarque-Bera test .

Dans notre article , nous allons mettre l’accent sur trois tests les plus répandus à savoir : Kolmogorov-Smirnov (K-S) test , Lilliefors corrected K-S test et Shapiro-Wilk test.

Le Kolmogrov-Smirnov (KS):

C’est le test le plus communément utilisé par les chercheurs pour décider de la normalité des données. Le test repose sur la comparaison de la distance entre la distribution théorique et celle empirique . Plus les 2 courbes dévient, plus la probabilité de rejeter l’hypothèse de normalité est grande et vice versa.

Comme d’autres tests, ce test repose sur deux hypothèses :

H0 (nulle) : la distribution est gaussienne.

H1 (alternative) : La distribution est non gaussienne.

Si la p value des test KS est inférieur à 5%, on rejette H0 et on conclue que la distribution est non gaussienne.

Selon les études de simulation par la méthode Monte-Carlo, le test KS a une puissance statistique faible par rapport aux autres tests et nécessite une taille d’échantillon assez conséquente. La présence des valeurs aberrantes (outliers) le rend plus sensible.

Cet exemple fictif présente les résultats du test de normalité de Kolmogrov-smirnov pour deux variables continues « Age » et « Poids ». La P-value du test KS était non significatif pour la variable Age ce qui nous conduit à accepter H0 selon laquelle la variable Age suit une distribution normale. A contrario, le test de KS était significatif. Autrement dit , le poids suit une distribution anormale.

I2 Comment savoir si mes données suivent une distribution normale ?

Le test de Lilliefors 

Le test de Lilliefors est une version améliorée du test de Kolmogorov-Smirnov permettant de tester l’hypothèse nulle selon laquelle les données soient issues d’une loi normale quand les paramètres de la loi normale ne sont pas connus. Comme le test de Kolmogorov-Smirnov (voir plus haut), le test de Lilliefors s’appuie sur deux hypothèses à savoir :

H0 (nulle) : la distribution est gaussienne. H1 (alternative) : La distribution est non gaussienne.
Si la p value des test est inférieur à 5%, on rejette H0 et on conclue que la distribution est non gaussienne.

Ce test a été beaucoup critiqué à cause de sa puissance statistique. Certaines déconseillent l’utilisation de ce dernier et recommande le test de Shapiro-Wilk comme une alternative.

Le test de Shapiro Wilk

le test de Shapiro-Wilk a été développé par deux statisticiens Shapiro et Wilk en 1988. Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En comparaison avec les autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50). La statistique W peut donc être interprétée comme le coefficient de détermination (le carré du coefficient de corrélation) entre la série des quantiles générées à partir de la loi normale et les quantiles empiriques obtenues à partir des données. Plus W est élevé, plus la compatibilité avec la loi normale est crédible.

L’exemple suivant montre les résultats du test de normalité de Kolmogrov-Smirnov et Shapiro-Wilk

I1 1024x333 Comment savoir si mes données suivent une distribution normale ?

La p-value  des deux tests sont tous supérieurs à la valeur seuil de 5% ce qui nous amène à accepter à H0 selon laquelle la variable Age est normalement distribuée.

Putting all together

Ce présent article, comme cela a été mentionné précédemment, vise à décrire plutôt les différentes étapes à suivre pour évaluer l’hypothèse de normalité. Une hypothèse fondamentale pour l’application des tests paramétriques.

La normalité statistique, comment puis-je la vérifier 👀👀👀 ?

D’abord commencez par les représentations graphiques (histogramme, Boîte à moustache, QQ-plot). Le choix de l’une de ces représentations dépend de vos propres préférences mais d’après mon expérience avec le monde de la data, je recommande vivement la boite à moustache qui reste une visualisation graphique riche en information (Min, Max, Q1, Q2, Q3).

Que faire si la méthode graphique n’est pas concluante ?

Très simple, passer à l’étape suivante, faites les tests de normalités que nous avons précédemment développés. Nous avons énuméré les plus communément utilisées (KS -Shapiro-Wilk-Lilliefors) mais il existe d’autres tests que nous n’avons pas pu couvrir dans cet article.

Lequel des tests est le plus puissant (rassurant 😊 pour vous) ? La littérature statistique recommande le test de Shapiro-Wilk notamment pour les échantillons de petite taille (Dekker ; 2002.)   (n<50) en raison de sa puissance statistique comparativement aux autres tests.

Que faire si la distribution de mes variables est non gaussienne ? La réponse à cette question fera l’objet du prochain article.

Bref, la normalité en statistique

  • Condition indispensable à vérifier pour la réalisation des tests paramétriques.
  • Deux méthodes sont à retenir :
  • La méthode graphique : examen visuel de la représentation graphique (l’histogramme, QQ-plot ou la boîte à moustache). Facile mais subjective.
  • Les tests de normalité : Le test Shapiro -Wilk recommandé pour les échantillons de petite taille.
  • Associer Les deux méthodes (graphique et les tests de normalité) pour une meilleure compréhension de la distribution des variables.

Lectures recommandées :

  • Altman DG, Bland JM. Statistics notes: the normal distribution. Bmj. 1995;310(6975):298
  • Royston P. Estimating departure from normality. Stat Med. 1991;10(8):1283-93
  • Altman DG, Bland JM. Detecting skewness from summary information. Bmj. 1996;313(7066):1200.
  • Steinskog DJ. A cautionary note on the use of the KolmogorovSmirnov test for normality.

Jamal Tikouk

Share this:

  • Click to share on Facebook (Opens in new window)
  • Click to share on Twitter (Opens in new window)
  • Click to share on LinkedIn (Opens in new window)
  • Click to share on WhatsApp (Opens in new window)
  • Click to share on Telegram (Opens in new window)
  • More
  • Click to print (Opens in new window)
  • Click to share on Reddit (Opens in new window)
  • Click to share on Pinterest (Opens in new window)
  • Click to share on Pocket (Opens in new window)

Articles similaires

  • Ep3_Jamovi: Comparer une variable quantitative entre 2 groupes “Test t-Student” et le test de Welch”
  • Principes des statistiques descriptives en vidéo et en 5min!
Tags: biostatistiquesdistribution en clochesdistribution gaussiennedistribution normalehistogrammekolmogorov-smirnovshapiro-wilktests de normalitévariable quantitative

Related Posts

Intervalle de Fluctuation et Intervalle de Confiance: Les 4 différences

Intervalle de Fluctuation et Intervalle de Confiance: Les 4 différences

March 30, 2023
tests statistiques biostatistiques regression analyse univarié

Guide pratique pour choisir le test statistique adapté à votre question de recherche

January 19, 2023
Comment calculer la taille de l’échantillon ou Nombre de sujets nécessaire? Exercices pratiques

Comment calculer la taille de l’échantillon ou Nombre de sujets nécessaire? Exercices pratiques

June 8, 2022

Comparer les moyennes de trois groupes ou plus : Analyse des variances ANOVA sur Jamovi. Principes et Tutoriel.

February 18, 2022

Tuto Jamovi Chi2: Comparer 2 variables qualitatives

January 19, 2022

Comment gérer les données manquantes dans les études transversales et longitudinales?

April 29, 2022

Biostatistiques: Que faire si mes variables ont une distribution asymétrique?

August 29, 2021

2 choses à savoir sur la P value.

August 13, 2021

Quelles variables peut-on mettre dans une régression logistique?

August 2, 2021

Regression linéaire: pré-requis et tutoriel sur Jamovi.

August 29, 2021
Load More

Comments 4

  1. Pingback: Moyenne, Moyenne tronquée ou Médiane: que choisir pour une tendance centrale? | EpiRheum.com
  2. Pingback: Comment calculer la taille de l'échantillon ou Nombre de sujets nécessaire? Exercices pratiques - EpiRheum.com
  3. Ella Louis says:
    2 years ago

    Bonjour, Merci pour ces informations. Cette fiche est très claire et simple à retenir.
    Pourriez-vous me dire s’il vous plaît si l’on entend la même chose par “loi normale” et “linéaire”. Je dois faire des régressions, et j’ai lu que “La régression linéaire consiste à relier des variables à une ligne droite, tandis que la régression non linéaire relie les variables dans une relation non linéaire (courbe)”. Du coup je me demandais comment je pouvais savoir cela, s’il y avait un test pour l’évaluer ou si cela voulait dire la même chose que la loi normale? puisque selon si c’est linéaire ou pas, nous n’utiliserons pas les mêmes méthodes de régressions.

    Loading...
  4. Ihsane Hmamouchi says:
    2 years ago

    Bonjour
    Régression et Loi normale ne correspondent pas à la même chose.
    La loi normale concerne la distribution des variables quantitative selon la courbe de Gauss (dites en Cloche). Dans ce cas, on exprime la variable par une estimation de la moyenne et de l’écart-type de l’échantillon.
    Le régression correspond à une modélisation ayant pour but de prédire une variable explicative (ex: Tabac) par rapport à une variable à expliquer (Kc du poumon Oui/non) en ajustant sur des facteurs de confusion (ex: age, sexe masculin…)
    Il existe plusieurs type de régression selon le type de modèle que l’on souhaite.
    Bon courage

    Loading...

Leave a CommentCancel reply

Recent News

Protected: Informer pour mieux traiter

June 23, 2024
Intervalle de Fluctuation et Intervalle de Confiance: Les 4 différences

Intervalle de Fluctuation et Intervalle de Confiance: Les 4 différences

March 30, 2023

Catégories

  • Avis d'experts
  • Biostatistiques
  • Enseignement Intelligent
  • Épidémiologie Clinique
  • Fondamentaux
  • Les Coulisses
  • Non classé
  • Pour Commencer
  • Projets
  • Rédaction scientifique
  • Travaux Personnels

Liens Utiles

  • A propos
  • Contact
  • Privacy & Policy

À propos

Dr. Ihsane Hmamouchi is a rheumatologist at Temara Hospital and associate professor at Laboratory of Biostatistics, Epidemiology and Clinical Research (LERC) of Mohammed V University in Rabat and associate editor of “La Revue Marocaine de Rhumatologie”, the journal of the Moroccan Rheumatology Society.

  • A propos
  • Contact
  • Privacy & Policy

© 2021 EpiRheum.com - All rights reserved.

No Result
View All Result
  • Accueil
  • Pour Commencer
  • Épidémiologie Clinique
    • Fondamentaux
    • Biostatistiques
    • Rédaction scientifique
  • Projets
    • Les Coulisses
    • Travaux Personnels
    • Enseignement Intelligent
  • Avis d’experts
  • A propos
  • Contact

© 2021 EpiRheum.com - All rights reserved.

Welcome Back!

OR

Login to your account below

Forgotten Password?

Create New Account!

OR

Fill the forms bellow to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.
%d