Vous vous êtes tous et toutes demandés au moins une fois: Es ce que c’est le bon choix? Est-il fiable? Est-il reconnu? Devrais-je le changer? Je parle bien sûr du O de PICOT “outcome ou critère de jugement” dans les essais cliniques. Voici quelques règles méthodologiques pour guider votre choix mais la décision finale vous revient.
Nous utilisons en permanence les critères de jugement pour statuer : Quel degré d’amélioration nous attendons de ce traitement ? Est-ce un bon rapport bénéfice/risque ? Objectif curatif ? symptomatique ou préventif ? Mais, comment savoir que ces critères sont les bons ?
“The” Critère de Jugement principal
En bref, méthodologiquement,
A partir de l’hypothèse de base, on formule un objectif.
A partir de cet objectif, on définit le critère de jugement principal.
Ce critère de jugement principal doit être:
- Unique, mesurable, valide, fiable et reproductible,
- Reconnu par la communauté scientifique pour sa pertinence,
- Définit dans le protocole initial de l’étude,
- Recueilli de la même façon par tous les investigateurs (pour éviter les biais),
- Et il est la base du calcul de nombre de sujets nécessaires (la taille de l’échantillon de l’étude) pour une puissance donnée.
Et en détails,
la réflexion autour des critères de jugements nous amène à réfléchir à nos objectifs et à la meilleure façon de les évaluer.
Le critère de jugement (le O « outcome » de PICOT ou endpoint) est le critère mesurable permettant de mettre en évidence le résultat d’un événement ou d’une intervention. Il est à la base du calcul de nombre de sujets nécessaires (la taille de l’échantillon) par rapport à une puissance donnée. D’où l’intérêt de bien le choisir.
Le critère de jugement peut être :
- qualitatif : binaire, on/off ; il sera exprimé en pourcentage et effectif (ex : la mortalité, la guérison)
- quantitatif : il sera donc exprimé par une moyenne ± écart-type (ex : EVA douleur, score d’activité de la maladie, score de qualité de vie)
Exemple 1: L’ostéoporose est une maladie fragilisante du squelette qui engendre un risque accru de fracture, notamment la fracture du col avec toutes les conséquences quand lui connaît ; du coup l’efficacité d’un traitement de l’ostéoporose aura comme critère de jugement principal (CJP) la diminution du % de fracture à dix ans : critère qualitatif .
Exemple 1 bis : si on reprend notre exemple, suivre des patients pendant dix ans risque de données lieu à beaucoup de perdues de vue, d’où l’utilisation dans plusieurs essais thérapeutique de l’ostéoporose de la mesure de la densité minérale osseuse (DMO) comme CJP. En gros, plus la DMO est basse, plus l’ostéoporose est sévère, du coup, si une thérapeutique augmente la DMO, elle est jugée efficace. Ici le CJP est une densité, il est donc est quantitatif.
Méthodologiquement, voici quelques principes méthodologiques pour le choix du “bon” CJP:
- Unique : Pour ne pas multiplier les tests statistiques et multiplier les risques d’erreurs (de conclure à tort à une différence : risque alpha), il convient de ne baser la conclusion de l’essai que sur un et un seul test statistique basé sur le critère de jugement principal. “Unique tu seras“
- Du fait de son unicité, le critère de jugement doit être soigneusement choisi et doit correspondre au critère le plus cliniquement pertinent vis-à-vis de l’objectif thérapeutique de la maladie.
Et selon la différence observée entre les 2 traitements, l’effet ne sera pas le même : une augmentation de 50% n’est pas pareille qu’une augmentation de 1%, qu’elles soient significatives ou pas. “Pertinence tu adopteras“
- Si nous obtenons une augmentation de 1%, on doit nous poser la question de la variabilité des mesures : Si un traitement A augmente la DMO d’une valeur qui est inférieur égale à la variation de mesures de l’appareil, elle ne peut être considérée comme pertinente, mais si les résultats sont statistiquement significatifs.
Je m’explique : Sur la machine de mesure de la DMO, deux examens réalisés par le même opérateur sur le même patient peuvent donner des résultats différents. Si cette différence correspond à la différence observée entre 2 traitements, on ne peut pas conclure. “Fiable tu seras“
- Le critère de jugement doit être reproductible, et ce pour éviter qu’une différence indépendante du traitement ne biaise l’étude.
On reprend notre exemple: Si sur la machine de mesure de la DMO, deux examens réalisés par le même opérateur sur le même patient donnent des résultats différents, cette technique de mesure risque de fausser les conclusions. “Reproductible tu t’astreindra”
Je reviendrai plus en détails sur la reproductibilité dans un prochain post.
- Et enfin pour éviter tout changement du CJP en cours d’étude, ce que font certains auteurs pour aller dans le sens des résultats obtenus à postériori, les revues exigent que le protocole soit enregistré avant le démarrage du protocole sur une plateforme dédiée ex ClinicalTrials.gov, PanAfricanClinicalTrialRegistry (PACTR), ResearchGate… “CJP, tu resteras pour le meilleur et pour le pire…“
Ça c’est l’idéal, mais dans la vraie vie, c’est parfois différent…
Le CJP peut être unique mais issu d’un score composite
Si on n’arrive pas à se mettre d’accord sur « the » CJP, on peut avoir recours à un score composite ; exemple évaluation de l’efficacité thérapeutique d’un traitement sur les évènements cardiovasculaires majeurs « la mortalité ou la survenue d’un AVC ou d’un infarctus du myocarde ».
Dans ce cas, le CJP est toujours unique mais issu de plusieurs composantes qui doivent être (théoriquement) :
- chacune des composantes doit être d’importance équivalente pour les patients,
- l’incidence d’événements doit être similaire entre les composantes,
- l’efficacité attendue du traitement doit être identique sur les composantes.
Mais en réalité, c’est souvent compliqué de respecter ces 3 règles.
Le CJP peut être multiple, (oui oui c’est la vrai vie)
Parfois les auteurs n’arrivent pas à se décider, et choisissent des « co-critères principaux » exemple : l’évaluation de la douleur (EVA) et de la fonction (le périmètre de marche) pour un traitement de la gonarthrose.
Mais ce n’est pas recommandé car comme on l’a vu plus haut,
- Le calcul de la taille de l’échantillon se base sur un facteur, et non deux.
- La conclusion sera faite dès qu’un des tests sera significatif avec un risque d’erreur > 5% ; or si on multiple les tests statistiques avant de conclure à l’effet du traitement, on prend un risque d’erreur de 5% au premier test, puis encore 5% au second, etc.
Et les critères de jugement secondaires
- Intéressent le plus souvent les données de tolérance dans les essais cliniques ou de qualité de vie
- On ne peut pas conclure l’étude sur un résultat d’un critère de jugement secondaire car la puissance de l’étude a été calculée à partir du CJP et non secondaire ; il s’agit là d’un manque de puissance statistique et non pas d’un manque d’efficacité du traitement sur ce critère (voir plus haut).
- De même, les intervalles de confiance obtenus au niveau des critères de jugement secondaires peuvent être plus larges que ceux du critère principal pour la même raison.
- Il est cependant possible de chercher à conclure au niveau des critères secondaires en prenant en compte la multiplicité des tests statistiques par une méthode d’ajustement du seuil de signification statistique.
ça a l’air compliqué, mais le principe est simple , je vous assure
Petite note biostatistique: La méthode Bonferroni
La méthode de Bonferroni peut être utilisée pour contrôler l’inflation du risque alpha au niveau des critères de jugement secondaires. Cette approche revient à corriger les valeurs de p obtenues au niveau des critères secondaires en les multipliant par un facteur, c’est la même que celle qu’on utilise pour les analyses en sous-groupes.
Last but not least
Malgré toutes ces bases méthodologiques, connues et reconnues, plusieurs essais randomisés en médecine et chirurgie, adultes ou enfants, montrent:
- une grande disparité entre le critère primaire clairement spécifié initialement enregistré dans le protocole et celui de l’article (près de 40 % des cas) ;
- l’absence d’un CJP préalablement défini (jusqu’à 27% des cas)
- l’utilisation d’un CJP non valide ou non reproductible,
- l’utilisation de CJP multiples, rendant les conclusions hasardeuses…
Vigilant et Critique tu resteras
En vous souhaitant plein de bonnes choses à venir …
Très intéressant!! je n’ai pas pu m’empêcher de faire la correspondance entre la méthodologie clinique et les processus d’aide à la décision en général, et dans différents domaines en particulier en supply chain management et en finance. D’un autre côté le lire avec un regard plutôt apprentissage automatique pour l’analyse à posteriori des données et non statistique est assez intriguant!!
Contente d’avoir suscité toutes ces questions Loubna! Il y a, en effet, beaucoup de points communs entre les deux approches 🙂