Dans le post précédent, nous avons vu les différentes techniques (graphiques et numériques) qui permettent de tester l’hypothèse de normalité. Ce présent article, vous initiera à connaître les transformations arithmétiques et trigonométrique à réaliser de façon à ce que vos données prennent la forme d’une distribution normale (Approximativement normale 😊pas à 100 % bien sûr)
Le choix de la méthode de transformation repose sur la forme de la distribution empirique des données chose à vérifier via l’histogramme ou la boîte à moustache , paramètres de forme ainsi que d’autres tests de normalité (voir le dernier post).
Nous allons voire dans ce post que faire ?
- Si la distribution est étalée à droite
- Si la distribution étalée à gauche
- Si la distribution aplatie
- Dernière solution
En principe, à part la distribution normale, la forme de distribution des données prend trois formes soit : asymétrique étalée à droite ou asymétrique étalée à gauche soit une forme plus/moins aplatie. La déviation de la forme de la distribution peut varier à des degrés différents. Comme nous allons voir ensemble, la racine carrée, le logarithme et les fonctions trigonométriques sont majoritairement appliqués pour la transformation des distributions non-normales. Quel type de fonction dois-je choisir ?
Quelle transformation devrais-je faire si ma variable est distribuée à droite ?
En se référant aux travaux de Stevens (2002), si la distribution de votre variable présente une asymétrique vers la droite, l’ajout de la racine carré ou le logarithme pourrait changer la nature de la distribution en la rapprochant vers la distribution normale. La réalisation du test de normalité reste toujours indispensable pour décider définitivement de l’acceptation /rejet de cette hypothèse.
Cette forme de distribution, on peut souvent la croiser en analysant les données relatives aux patients tel la durée moyenne de séjour, le temps moyen d’attente pour une consultation médicale, nombre de rendez-vous raté ….etc.
Quelle transformation devrais-je faire si ma variable est distribuée à gauche ?
Dans certaines circonstances, la distribution empirique de la variable pourrait être déviée à gauche. Dans ce cas-là , steven (2002) préconise l’utilisation des formules affichées dans les figures suivantes
Que faire si la distribution est aplatie :
C’est le troisième cas de figure. Quand la distribution empirique est aplatie, plusieurs formules peuvent être envisagées tel le logarithme et l’arcsin comme cela est affiché dans les figures suivantes.
A noter que ce type de transformations mathématiques pourraient, dans certains cas, ne pas réussir à transformer avec succès la distribution de votre variable. C’est tout à fait naturel, vos données veulent dire quelques choses en résistant au changement imposé .
Dernière Solution ?
Après avoir tenté avec tout ce qu’on a proposé, vous allez, sans aucun doute, se sentir un peu stressé et se poser la question ? pour quoi ça n’aboutit pas. Beh 😊 😊 😊 😊, c’est tout à normale, le monde de la data et la recherche demande de la patience. Voilà quelque recommandation :
Primo, renseignez-vous si le test statistique qui vous intéresse est robuste à la violation de cette hypothèse, si c’est le cas, avancez sans se soucier de la normalité.
Secundo, si c’est l’inverse, cherchez au niveau des tests non paramétriques, le test qui équivaut à votre test paramétrique (Par exemple : Test Mann-Whitney/ test de student,) et appliquez le.
A noter que les tests non paramétriques bien qu’ils vous rendent service, néanmoins, ils sont connus par leur faible puissance statistique (détecter un effet significatif quand l’effet existe réellement). Ils vous présentent une solution mais, il y a toujours un coût statistique à payer (😊 😊 😊)
N’hésitez pas à me faire par de vos questions.
Jamal Tikouk