La remise en question du petit p nous pousse à garder l’esprit critique face aux chiffres et de revenir au contexte de l’étude avant de conclure! Il n’y a pas de méthode statistique meilleure qu’une autre, l’important est de bien comprendre les logiques sous-jacentes...
L’année dernière, sous le titre: “Scientists rise up against statistical significance” paru dans Nature, Amrhein, Greenland, et McShane ont publié une tribune défendant l’abandon du concept de signification statistique. Et ce n’étaient pas les premiers. Mais comment on est-on arrivé là 🙂 ? Voici quelques éléments de réponse.
Un test statistique se construit toujours en 7 grandes étapes:
- Tout commence par une question
- De cette question découle une théorie ou affirmation
- On définit ensuite 2 hypothèses : une hypothèse Ho, dite hypothèse nulle et une hypothèse alternative H1 (son contraire)
- On fixe un risque α à priori, à ne pas dépasser pour rejeter l’hypothèse nulle (typiquement fixé à 5%).
- Après une expérience ou des observations particulières, on collecte les données d’un échantillon tiré au hasard.
- A l’aide du test approprié, on calcule le petit p qui correspond à la probabilité de rejet de Hypothèse H0 nommé aussi le degré de signification (p).
- On conclue en fonction du résultat de la comparaison entre la valeur de la probabilité (p) et le risque α au rejet ou non rejet de l’hypothèse nulle:
Si p<α (p< 5%) , on rejette H0 et on conclue que la différence est statistiquement significative en faveur de H1
Si p > α , on ne rejette pas Ho, on rejette H1, ici la différence est non statistiquement significative ( elle serait due au hasard).
Dans une démarche expérimentale, et si l’hypothèse nulle est rejetée (p< 5%), on pourra conclure en une forte présomption d’un lien de cause à effet. Si on est en situation d’observation : on ne pourra pas conclure de façon tranchée.
Voilà c’est dit, vous pouvez vous arrêter là ou décider de creuser un peu plus…
Vous êtes sûr ? OK.
Alors on reprend tout depuis le début
Pour commencer, quelle est votre question ?
Au début de tout projet de recherche, il y a une question, théorie, autrement dit votre hypothèse. Toute la démarche sera ensuite de prouver que votre théorie est juste.
Comment faire ? Observer ou Expérimenter ?
L’observation
L’observation dans le domaine scientifique est l’action de regarder les êtres, les choses, les évènements, les phénomènes pour les étudier, les surveiller et en tirer des conclusions.
En tant que démarche scientifique à part entière, elle doit donc être structurée selon une méthodologie commune:
1er Temps Descriptif: Observer à l’aide d’outils (questionnaires, enquêtes…) en se posant des questions.
2ème Temps Analytique : Relever les données relativess à la question posée.
3ème Temps: Interprétation des données pour répondre à la question.
Surtout utilisée pour les études qualitatives, elle peut être aussi utilisée pour différentes types de questions telles que:
1. Lorsque la question de recherche débute par “comment ?” Comment les refugiés sont arrivés dans ce pays?
2. Lorsque l’on veut étudier un phénomène dans son cadre naturel Exemple L’étude du système solaire
3. Comme première partie de votre travail de recherche lorsqu’on connaît peu un sujet. Exemple : Décrire le profil des patients dans un nouveau registre
4. Lorsque l’on veut avoir accès à la “vérité” sur une situation; l’observation permet de se faire une idée propre sur cette vérité. Je vous invite à lire l’article de Gaspard Claude sur la méthodologie de l’observation pour plus de détails.
La théorie du cygne noir
Plusieurs philosophes se sont accordés à souligner que la validation de la Connaissance ne peut se faire par la seule observation car de par son caractère universel, cette connaissance prédit beaucoup plus que ce que nous pourrons jamais observer.
L’exemple historique est celui du cygne noir, développé par Karl Popper dans son livre : La logique de la découverte scientifique (1959).
Vers le 16ème siècle, il était établi que tous les cygnes étaient blancs et cela ne pouvait être autrement. Raisonnement : Si l’on ne croise et n’observe que des cygnes blancs, on aura vite fait de déduire (par erreur) que tous les cygnes sont blancs. C’est ce qu’ont longtemps cru les Européens avant que les premiers cygnes noirs ne soient découverts en Australie.
En réalité, seule l’observation de tous les cygnes existants pourrait nous confirmer qu’ils sont bien toujours blancs. Mais en pratique, comment faire ? Avons-nous le temps et les moyens d’observer tous les cygnes qui existent pour confirmer qu’ils sont tous blancs? La réponse est clairement non. De plus, si nous voulons vérifier une théorie par observation, nous serons confronter à un problème de régression infinie dans la mesure où l’argumentation doit elle-même s’appuyer sur une autre observation qu’on doit aussi valider.
Par contre si on vérifie l’existence d’un cygne noir, on pourrait réfuter la théorie. C’est le principe de la démarche expérimentale introduite par Karl Popper permettant selon son auteur, d’établir une démarcation entre les théories scientifiques et celles qui ne le sont pas. Le Cygne noir est d’ailleurs utilisé comme sophisme pour la réfutation.
L’expérimentation
La propriété fondamentale de toute théorie scientifique est d’être réfutable (K. Popper)
En démarche expérimentale, une affirmation, une hypothèse, est dite réfutable (falsifiable) si sa forme logique notée 1 est telle qu’il est possible de tester son éventuelle fausseté par une expérimentation.
Cela ne vous rappelle rien ?
H0 : Hypothèse de base (le cygne noir)
H1 : Hypothèse alternative
C’est le principe des tests statistiques .
On reprend,
Dans une démarche expérimentale, les étapes du raisonnement face au test statistique sont les suivantes :
1. On commence par une observation
2. Qui va découler sur une hypothèse nulle et une hypothèse alternative : ainsi pour une hypothèse donnée (H1 ou hypothèse alternative), on énonce son contraire qui est H0 et on cherche à tester H0
3. On définit à priori un risque α fixé à 5 %
4. Puis on test statistiquement l’hypothèse H0 pour aboutir à p.
Si p> 0.05 on ne rejette pas H0, on dit qu’on rejette l’hypothèse (H1).
Si p< 0.05 on rejette H0 et on retient l’hypothèse alternative (H1).
La tyrannie du p
Encore une fois, le principe général d’un test statistique est de tester H0:
Si p> 0.05 on ne rejette pas H0, on dit qu’on rejette l’hypothèse (H1)
Si p< 0.05 on rejette H0 et on retient l’hypothèse alternative (H1).
Mais, les limites de ces statistiques dites « fréquentistes » résident dans ce p tout puissant qui peut entrainer un jugement partiel avec une négligence des probabilités du test à priori .
Je m’explique …
En pratique, on calcule, à travers différents tests, un petit p que nous allons confronter au risque d’erreur de type I : risque α communément admis à 5% ; autrement dit si le p<0.05 donc inférieur au risque α on rejette l’hypothèse nulle, et on retient H1.
Mais , cela présente plusieurs écueils et risque de mauvaise interprétation:
- Si le p est non significatif, on ne rejette pas H0 mais nous l’acceptons pas non plus ; car comme les tests ne savent pas évaluer une erreur de type II (ß) (le risque de se tromper en ne rejetant pas l’hypothèse nulle), on ne conclue pas, on n’accepte pas l’hypothèse H0 même si elle est très plausible.
- La taille de l’échantillon peut changer les résultats, en effet, en augmentant la taille de l’échantillon on pourrait retrouver une différence significative là où elle n’existait pas.
- Le p n’est pas un risque d’erreur, c’est un degré de significativité, un degré de confiance dans les résultats. Le risque d’erreur α est fixé a priori, et correspond à 5% .
- Ne pas mélanger la différence significative des deux mesures (qui doit être cliniquement pertinente pour avoir du sens) et la différence statistiquement significative : Le p n’a pas de rapport avec la différence d’effets observés.
Le paradoxe de l’hypothèse nulle H0
Reprenons depuis le début, intuitivement, une question de recherche va germer dans l’esprit du chercheur, qui va énoncer une hypothèse puis avec l’expérimentation ou les observations va aboutir à des données. A l’issu de cette phase, le chercheur va confronter l’hypothèse à ses données. Ici, soit les données sont concordantes avec son hypothèse; il a confirmé son hypothèse. Soit les données ne confortent pas l’hypothèse, du coup il pense à une autre hypothèse.
Hors, de la manière dont sont construits les tests, pour avoir des résultats statistiquement significatifs, on demande au chercheur de fabriquer une hypothèse nulle et une hypothèse alternative ( par définition contraire) . Et seule l’hypothèse nulle sera confronter aux résultats:
- si son idée est celle de l’hypothèse nulle, et si les résultats sont p<0.05, il ne peut pas conclure car il ne peut pas accepter H0 (risque ß non évalué, voire explication plus haut).
- si son idée est l’hypothèse alternative, il ne pourrait conclure qu’en affirmant que c’est l’hypothèse opposé à la sienne est rejetée.
Ceci va entrainer un biais de publication, qui privilégie les études significatives rejetant l’H0 , au détriment des études non significatives dont la valeur scientifique est très utile. Les études non significatives une fois publiées nous permettraient d’avoir une idée globale de la question posée plus proche de la réalité.
L’exemple le plus débattu est celui du vaccin de l’Hépatite B et la survenue de sclérose en plaques. Quand on examine les différentes publications, on constate que si on avait pris en considération l’ensemble des études négatives non significatives, on aurait probablement évalué cette probabilité à la baisse.
Négligence des probabilités à priori
Encore une fois, le principe général d’un test statistique est de tester H0
Si p> 0.05 on ne rejette pas H0, on dit qu’on rejette l’hypothèse (H1)
Si p< 0.05 on rejette H0 et on accepte l’hypothèse alternative (H1).
Ainsi p = probabilité d’observer les données si l’hypothèse nulle est vraie Prob (D/H0)
Mais quelle est la probabilité de H0 Prob (H0) ?
Par défaut, dans les tests classiques, on établit que les deux hypothèses ont la même probabilité à priori, ce qui ne correspond pas à la réalité.
En effet, selon la probabilité à priori des hypothèses H0 et H1, la valeur du p change : plus la probabilité de H1 est faible (idée peu crédible), plus la probabilité de H0 sera forte, et moins il faudra accorder de crédit à la valeur du p.
Si on est devant une H0 dont la probabilité est quasi nulle ou au contraire certaine, es ce que vous accorderez la même confiance au p ?
Cette négligence des probabilités à priori correspond à la négligence des taux de base par les Bayésiens.
Quelques mots sur le Théorème de Bayes
Es ce qu’il ne vaudrait pas mieux connaître la probabilité des hypothèses en fonction des données et de les comparer ? C’est le point de départ de la théorie Bayésienne.
Pour les Bayésiens, notre jugement sur une situation part d’un à priori de base correspondant au pourcentage qu’on accorde à la théorie qu’on veut vérifier (Probabilité à priori) qui sera multipliée par sa Vraisemblance (l’ensemble des éléments qui justifie notre théorie) pour obtenir ainsi la probabilité à postériori .
P (H) à postériori dépend de P(H) à priori et de sa Vraisemblance
On comprend ainsi que
- pour des probabilités à priori différentes nous aboutirons à des conclusions très variables , quel que soit la vraisemblance des faits …
- notre probabilité à priori est amenée à changer avec la survenue de nouveaux faits
Le souci ici est de définir les probabilités à priori qui laissent place à une subjectivité, difficilement modélisable à ce jour
In fine, on peut encore continuer à étudier les p dans les études mais on doit tenir compte du contexte et rester critique. La suite sera probablement Bayésienne, mais ça c’est une autre histoire…
Epidemilogy is fun
If it is not fun, it is not epidemiology
Mickeal Gregg 1930-2008
Je m’arrête là, j’espère vous avoir donner envie d’aller plus loin…
Quelques références vidéos:
Pour plus d’exemples, je vous recommande:
– l’excellente chaine du Pr Thierry Ancelle ou il revient sur le petit p et ses pièges en deux vidéos.
– la synthèse des étapes d’un test sur la chaine biostatistique.
– une introduction à la théorie Bayésienne à la leçon du Sophisme du Procureur sur la chaine hygiène mentale.
N’hésitez pas à me laisser vos commentaires !
Wowwwww tout me redonne envie de me replonger dans mes statistiques qui ne sont pas faut le dire mon sujet préféré. Bel article.
Ravie de te lire Ange!