Comment la randomisation fait-elle pour éviter les biais de sélection et faire en sorte de répartir de façon équilibrée les différents facteurs de confusion entre les groupes?
La loi des grands nombres justifie les sondages et la randomisation dans les études. En gros « Plus le nombre d’observation d’une variable aléatoire est grand, plus l’intervalle de fluctuation diminue et plus la valeur obtenue sera très proche de l’espérance mathématique de la variable (si la variable est continue) ou convergera vers les probabilités associées (si la variable est discrète)»
Ça mérite quelques explications… Je reprends donc depuis le début 🙂
La randomisation consiste à tirer au sort les patients permettant une répartition au hasard et aléatoire des patients dans deux ou plusieurs groupes.
Ces objectifs sont multiples :
- Assurer la comparabilité à priori entre les groupes.
- Minimiser les biais de confusion: répartition équilibrée des facteurs de confusion potentiels connus ou pas.
- Minimiser les biais de sélection en obtenant des groupes avec des caractéristiques homogènes, sans différence majeur au départ (comparable avant le traitement).
- Respecter les contraintes éthiques (tous les patients ont la même chance de recevoir le traitement A ou B).
Mais comment est-ce que le fait de tirer au sort garantit ces objectifs ? Comment est-ce que le Hasard fait en sorte de répartir de façon équilibrée les différents facteurs de confusion?
Historiquement, Jacques Bernoulli a été le premier à considérer une probabilité comme un degré mesurable de certitude; ce qui a donné lieu à «La Loi des grands nombres» par Siméon Denis Poisson publié dans son traité de 1837 sur la probabilité des jugements.
Je vais vous présenter les principaux concepts mathématiques intervenant dans ce calcul . Vous verrez, In fine c’est plus simple que prévu!
UN. Fluctuation d’échantillonnage et Taille de l’échantillon
Lorsque on étudie un caractère (un facteur de risque ou d’exposition) sur plusieurs échantillons de même taille d’une même population, on peut observer que les résultats ne sont pas identiques selon les échantillons; ce phénomène s’appelle fluctuation d’échantillonnage.
Quand la taille de l’échantillon augmente, la fluctuation diminue et la distribution des fréquences de l’échantillon est proche de la distribution théorique des fréquences de l’expérience aléatoire.
De même qu’un échantillon ne doit pas être trop petit car dans ce cas, la fluctuation d’échantillonnage sera trop importante, il ne sera donc pas représentatif de la population à étudier.
DEUX. Cas des variables discrètes (exemple absence/ présence d’un facteur de risque)
L’effectif est le nombre d’individus de la population ayant une valeur donnée (pour un caractère étudié).
La fréquence est le quotient de l’effectif de la valeur par l’effectif total.
Il me fallait au moins une formule mathématique pour ce post, j’ai choisi la plus utilisée par la non mathématicienne que je suis 🙂
Jacques Bernoulli a démontré que dans le cas d’épreuves indépendantes avec la même probabilité de succès, l’écart entre la fréquence de succès observée et la fréquence attendue peut être majorée par une constante arbitrairement petite, avec une probabilité qui se rapproche de 1 lorsque le nombre d’épreuves augmente.
Autrement dit,
Dans un jeu de dés, les six faces n’apparaitront pas aussi souvent les unes que les autres au début, mais la fréquence d’apparition de chaque face sera proche de 1/6 d’autant plus que le nombre de lancer est grand.
Si on lance un dé plusieurs fois, j’ai 1 chance sur 6 soit une probabilité de 16.67% (1/6 x 100) de tomber sur chaque face, et ce d’autant plus que le nombre de lancer est grand.
TROIS. Cas des variables continues (exemple: âge, poids, taille)
L’espérance mathématique d’une variable aléatoire est, intuitivement, la valeur que l’on s’attend à trouver si l’on répète un grand nombre de fois la même expérience aléatoire..
Pour les variables continues (âge, poids, taille), l’espérance correspond à une moyenne pondérée des valeurs que peut prendre cette variable.
Selon la Loi des grands nombres, plus le nombre d’observation d’une variable aléatoire est grand, plus la valeur obtenue sera très proche de l’espérance mathématique de la variable.
Donc, pour une variable aléatoire X, chaque observation (résultat) est imprévisible. Mais l’agrégation de plusieurs variables est «totalement prévisible» et se rapproche de son espérance mathématique d’autant plus que l’échantillon est grand.
EN CONCLUSION. La loi des grands nombres
« Plus le nombre d’observation d’une variable aléatoire est grand, plus l’intervalle de fluctuation diminue et plus la valeur obtenue sera très proche de l’espérance mathématique de la variable (si la variable est continue) ou convergera vers les probabilités associées (si la variable est discrrète) »
Nul vainqueur ne croit au hasard
Friedrich Nietzsche
Quelques liens pour plus de détails: La randomisation, La puissance organisatrice du hasard et la Variable aléatoire.
En vous souhaitant une bonne chance à toutes et à tous 😉 !