On parle d’Intervalle de Confiance (IC 95%) dans les statistiques fréquentistes.
Dans le cas des statistiques Bayésiennes, on parle d’Intervalle de Crédibilité (IC 95%).
La semaine dernière, ont été publiés les résultats préliminaires du candidat vaccin de Pfizer-BioNTech contre le SarsCov2.
Les résultats retrouvent une efficacité de 95% avec une intervalle de confiance… Eh non, une intervalle de crédibilité qui est de 90.3–97.6%.
Mais pourquoi les auteurs parlent d’intervalle de crédibilité “credible interval”, et non pas d’intervalle de confiance “confidence interval”?
Ceci est lié à la méthodologie d’analyse statistique utilisée.

Petit rappel
La statistique fréquentiste
La statistique fréquentiste se base sur une hypothèse nulle et une hypothèse alternative définit selon la problématique.
Ainsi, pour une hypothèse donnée (H1 dîtes hypothèse alternative), on énonce son contraire qui est H0 et on cherche à tester H0.
On calcule, à travers différents tests, un petit p que nous allons confronter au risque d’erreur de type I (risque α communément admis à 5%) ; autrement dit :
Si le p<0.05 donc inférieur au risque α on rejette l’hypothèse nulle, et on retient H1.
Si p> 0.05 on ne rejette pas H0, on dit qu’on rejette l’hypothèse (H1)
On parlera l’Intervalle de Confiance de nos résultats.
La statistique Bayesienne
La statistique bayesienne se base sur un probabilité à priori qui est fixé par les auteurs.
Exemple :
Si je lance une pièce 10 fois, et que j’obtiens 7 fois le coté pile; quelle est la probalibté (p) que je tombe sur la pièce coté PILE au prochain lancé?
Selon l’approche bayésienne, la probabilité à priori d’avoir un coté est de 1/2 , car il ya deux possibilités, pile ou face, soit 0.5 : 50%
Selon l’approche fréquentiste, si j’obtiens 7 fois sur 10 pile ; ma probabilité sera de 7/10 soit 0.7: 70%. Cette probabilité s’approchera de la probabilité bayésienne si j’augmente le nombre de lancé.
L’ approche bayesienne ne prend pas en compte le p-value.
D’ailleurs, vous remarquerez que dans l’article, il n’y a aucune p-value raporté 🙂
Une probabilité fixée à priori.
Pour les Bayésiens, notre jugement sur une situation, part du pourcentage qu’on accorde à la théorie qu’on veut vérifier (Probabilité à priori) qui sera multipliée par sa Vraisemblance (l’ensemble des éléments qui justifie notre théorie) pour obtenir ainsi la probabilité à postériori .
P (H) à postériori dépend de P(H) à priori et de sa Vraisemblance.
Sa principale limite est qu’elle va determiner une probabilité à postériori de façon non concomitante, séquentielle à l’événement, d’où risque d’erreurs d’interpretation. Cependant, elle s’affranchît du calcul de la taille d’échantillon, ce qui fait qu’elle est plus utilisé dans certaines niches d’ingénieries, track anti-spam et en cas d’effectifs très faible.
Par défaut, dans les tests classiques “fréquentistes”, on établit que les deux hypothèses ont la même probabilité à priori, ce qui ne correspond pas, toujours, à la réalité. En effet, selon la probabilité à priori des hypothèses H0 et H1, la valeur du p change : plus la probabilité de H1 est faible (idée peu crédible), plus la probabilité de H0 sera forte, et moins il faudra accorder de crédit à la valeur du p.
Si on est devant une H0 dont la probabilité est quasi nulle ou au contraire certaine, es ce que vous accorderez la même confiance au p ?
Cette négligence des probabilités à priori correspond à la négligence des taux de base par les Bayésiens.
On comprend ainsi que
-pour des probabilités à priori différentes, nous aboutirons à des conclusions très variables , quel que soit la vraisemblance des faits
-notre probabilité à priori est amenée à changer avec la survenue de nouveaux faits
Ce qui correspond à notre comportement quotidien… Nous jugeons les évenements quotidiens en prenant en considération nos “à priori”, sachant que ces mêmes à priori sont amenés à changer au fil du temps 🙂
Dans cet essai, et comme décrit dans le protocole de l’étude, les auteurs ont utilisé les statistiques bayésiennes pour le calcul de l’efficacité avec une probabilité à priori fixée à 30%. D’où l’utilisation de l’Intervalle de Crédibilité (IC 95%) et non d’intervalle de confiance!

A noter que l’efficacité est calculé selon la formule habituelle 1-IRR, comme dans l’étude d’Astra-Zenaka, sauf que ici les auteurs n’ont pas utilisé la regression de Poisson, mais la régression binomiale bayésienne leur incidence risque ratio.
Bref,
-La statistique fréquentiste repose sur une hypothèse de base et une hypothèse alternative.
-La statistique bayésienne repose sur les observations associées aux connaissances à priori venant d’avis d’experts ou de la littérature, pour aboutir à un résultat à postériori.
Epidemilogy is fun
If it is not fun, it is not epidemiology
Mickeal Gregg 1930-2008
J’ai voulu à plusieurs reprises introduire le concept des analyses fréquentistes et bayesiennes, sans vraiment trouvé d’angle pratique jusquà cet article. J’espère avoir réussi à vous donner envie d’en savoir plus!
Il n’y a pas de méthode statistique meilleure qu’une autre, l’important est de bien comprendre les logiques sous-jacentes.
Pour plus de détails, vous pouvez lire:
le petit p en détails: https://epirheum.com/vous-avez-dit-statistiquement-significatif/
la regression de Poisson dans l’étude Oxford- Astra-Zeneka : https://epirheum.com/zoom-sur-la-regression-de-poisson-et-lincidence-risque-ratio-irr-exemple-du-vaccin-anti-sarscov2-doxford/
Quelques références vidéos:
– l’excellente chaine du Pr Thierry Ancelle, où il revient sur le théorème de Bayes: https://www.youtube.com/watch?v=NYWnaKs3iu0
– une introduction à la théorie Bayésienne à la leçon du Sophisme du Procureur sur la chaine hygiène mentale.
N’hésitez pas à me laisser vos commentaires !
Ihsane
Pour les fans de SPSS , La version 26 de SPSS permet de générer les intervalles de crédibilités