Pour décrire la relation entre Y et X, la méthode de régression linéaire va consister à déterminer une fonction mathématique permettant de décrire au mieux la façon dont Y (une variable quantitative) varie en fonction des valeurs de X.
Exemple: Y (Densité minérale osseuse)=β0+ β (âge)+ résidu . LA SEULE FORMULE DE CE POST, promis!
Après le tutoriel JAMOVI, je vous propose de lire la deuxième partie du post, un peu plus avancé . Le but est de vous permettre de mieux apprehender la philosophie de la regression linéaire, sans passer par la case formule mathématique.
1. Différence entre corrélation, régression, et relation.
Nous avons souvent tendance d’interchanger les termes de relation, corrélation dans notre pratique quotidienne. Or, la corrélation correspond à une situation précise
Il faut distinguer deux situations :
Exemple 1 : Étude des variations simultanées de l’âge et du poids chez une population donnée .
• Les deux variables ne peuvent être distinguées, et pourront prendre n’importe quelle valeur pour n’importe quel individu observé. Les variables sont dites interdépendantes.
Ces questions sont traitées avec les tests de corrélation. Ici on mesurera la force de l’association entre les deux variables.
A noter que l’existence d’une corrélation même élevée entre deux variables quantitatives n’implique pas nécessairement l’existence d’une relation de cause à effet (causalité) entre les deux variables considérées . (Je reviendrais en détails sur la différence entre corrélation et causalité dans un autre post).
Exemple 2 : mesurer la densité minérale osseuse (DMO) (variable dépendante) en fonction de l’âge (variable indépendante).
Ici, on cherche à expliquer la variation de la DMO en fonction de l’âge des patients.
Une des deux variables,Y (DMO) doit être exprimée en fonction de X(âge). Les rôles de Y et X ne sont pas symétriques puisque la variable Y est choisie comme variable d’intérêt (variable dépendante ou à expliquer) et la variable X comme variable explicative (variable indépendante). Cette distinction des rôles de Y et de X est commune à toutes les méthodes de régression. Ce type de questions sera abordé avec les tests de régression
Si la variable Y est quantitative on parlera de régression linéaire, si Y est qualitative on parlera de régression logistique.
2. Regression linéaire
La regression linéaire simple correspond au fait de prédire / expliquer les valeurs d’une variable quantitative Y à partir d’une autre variable X (qui peut être quantitative ou qualitative). Concrètement, cela revient à décrire la distribution de Y pour chaque valeur de X.
-Si la distribution de Y varie selon les valeurs prises par X, on conclura qu’il existe un lien entre Y et X,
et inversement,
-Si la distribution de Y ne dépend pas des valeurs prises par X, on dira qu’il n’existe pas de lien entre Y et X.
Y (Densité minérale osseuse)=β0+ β (âge)+ résidu .
LA SEULE FORMULE DE CE POST, promis!
β représente la variation moyenne de la DMO entre 2 personnes ayant un kilos de différence de poids.
β0: constante
résidu: ce qui reste quoi… 🙂
La regression linéaire multiple correspond au fait de Prédire / expliquer les valeurs d’une variable quantitative Y à partir de plusieurs autres variables X1, X2, X3…Comme promis, je ne mettrai pas de seconde formule, vous pouvez aisement la déduire de la précédente 🙂
3. Tutoriel sur Jamovi
Il faudrait au préalable savoir comment créer une base de données sur JAMOVI, et les statistiques descriptives.
3.1. Regression linéaire simple
1. On choisit le menu : Analyse Régression Linéaire Régression
2- Une fenêtre s’ouvre faites passer les Variables dépendante : BMD lombaire dans dépendante variables et Age dans Covariates (indépendantes).
Ici la variable dépendante (y) est quantitative.
Les variables indépendantes, peuvent être soit qualitatives (factors) ou quantitatives (covariates)
La question dans notre exemple : es-ce qu’il existe des variables qui explique la DMO lombaire?
En analyse univariée, en regression linéaire simple, on met une seule variable en rapport avec la DMO
En analyse multivariée, on fait entrer dans le modèle l’ensemble des variables pouvant expliquer la DMO; avec comme règle de base:
1 variable explicative pour 10 patients inclus (x: cohorte de 300 patients; on peut inclure jusqu’à 30 variables dans le modèle).
Le choix des variables dépendera de vos résultats des analyses univariés, de la littéraure et de votre hypothèse de base.
3. On clique ensuite sur Models Coeffcients et selectionne pour avoir intervalle de confiance
A noter que:
Model builer, vous permet de on classer les variables par block, pour permettre de voire l’importance de chaque block à part. Nous pouvons par exemple grouper les paramètres démographiques dans un block, les paramètres de mode de vie dans un second, les traitements dans un troisième…
Reference levels vous permet de changer la modalité de référence pour les variables qualitatives, au niveau de cette rubrique. Par exemple pour le niveau d’instruction, vous pouvez comparer votre échantillon en prenant comme référence le niveau analphabète OU le niveau universitaire. Il vous suffit pour cela, de choisir la modèle qui vous interesse dans cette rubrique.
On obtient:
Ici l’équation s’écrit : Y (BMD lombaire) = 1,439 -0,0077 x (Age).
p <0,001 (on regarde le deuxième celui qui est en face de l’âge) et les intervalles de confiances.
Comment présenter les résultats ?
En régression linéaire simple, il existe une relation négative statistiquement significative entre la BMD et l’âge. Pour une année d’augmentation de l’age, la DMO diminue de 0.007 et ce de façon statistiquement significative.
3.2. régression linéaire multiple
Pour une régression linéaire multiple, on procédera de la même façon.
Choisir le menu : Analyse → Régression → Linéaire
Une boite de dialogue s’ouvre ; on précise ensuite la variable dépendante DMO lombaire et les variables explicatives ou indépendantes (âge, ménopause, ration calcique).
On clique ensuite sur Models Coeffcients et selectionne intervalle de confiance
Voici le résultat
Si on veut aller plus loin, nous devons vérifier la validité du modèle avant de retenir ses résultats. Ceci est fait envérifiant les pré-requis à la régression linéaire.
Voilà l’essentiel, maintenant si vous voulez vous approfondir, et n’avez pas peur de vous noyer dans les bases de la régression linéaire, je vous propose de lire la suite. Le but est de vous permettre de mieux apprehender la philosophie de la regression linéaire, sans passer par la case (Formule compliquée).
4 Pré-requis (assumption checks) on testera: la colinéarité, le résidu et sa variance et la distance de Cook’s .
Il faudra vérifier:
–colinéairité (par exemple si j’introduis le poids, la taille et le BMI, je n’introduit que la taille, poids ou BMI).On calcule le coefficant d’inflation de la variance. VIF<5
-la normalité des résidus (par Q-Q plot for residuals ); le résidu et sa variance doivent être distribué de façon normale. Graphique
–Résiduals plots pour la variance des résidus (tester l’homosédacticité). Graphique
– les influants (vérifier la distance de Cook’s). Elle doit être inférieure à 1.
L’autocorrélation, par exemple, le fait que la température d’aujourd’hui et celle de demain sont en relation entre-elles, et donc s’influencent les unes par rapport aux autres; caractérisent un type d’étude particulier dit les séries temporelles, et ne sera pas développer dans ce post.
La colinéarité
Ici, pour déterminer la colinéarité, JAMOVI prend chacune des variables explicatives, et l’introduit dans un modèle comme (y ) et il la regresse sur les autres .
En faisant ceci, JAMOVI cherche le modèle qui explique le mieux la variable Y.
1. Il calcule le R2 (R2= combien de variances l’âge partage avec la DMO, l’instruction, la menopause…).
Plus R2 est élévé, plus le modèle explique mieux.
2. Puis il calcule la tolérance,
1-R2= la tolérance.
Plus tolérance est basse, plus R2 est grand, plus le modèle explique mieux, plus la colinéarité est grande
3. Et enfin, obtient le facteur d’inflation de la variance (VIF ). (Accrochez-vous! on y est presque)
VIF= 1/tolérance
On l’appelle inflation de la variance car la variance va augmenter de VIF. Plus il est élevé, plus cela risque de nuire à la significativité des paramètres et ne pas mettre en évidence un différence qui pourrait exister. Si le détail mathématique vous intéresse, dîtes le moi en commentaire 🙂
Retenez, qu’on considère qu’il existe une colinéarité si l’inflation (VIF) est supérieur à 5.
Il faudra alors revoir les variables du modèle et voire si vous pouvez en retirer, sur la base de vos lectures bibliographiques, pour éviter cette colinéarité.
Dans notre modèle, aucune des VIF n’est supérieur à 5. Il n’existe donc pas de colinéarité entre nos variables.
Tester la normalité des résidus
On le fait, en général par
-la figure du Q-Q plot (Quantils-Quantiles plot) for résiduals, plus la ligne tracé par les points épouse de tracé théorique, mieux sait.
C’est le cas de notre modèle.
On peut également utiliser le test de Shapiro Wilk. Cela dit, ce test étant trop sensible il met rapidement en évidence une différence même minime. A utiliser de préférence pour les petits échantillons. Komogorov-Smirnov serait plus adapté au grand échantillon. Mais la plus part des écrits considèrent que si le graphe est bon, on peut ne pas tester la normalité, et se baser sur le tracé pour l’évaluer.
La normalité de la variance des résidus
On peut la tracer en selectionant residuals plots
-pour regarder les tendances
-Cela nous permet de vérifier une autre règle qui est l’égalité des variances à tout moment, le mot le plus compliqué pour moi en biostatistiques et qui fait aussi très savant 😉 : j’ai nommé l’homosédasticité .
On analysera la figure, si le nuage est globalement homogène, on concluera à l’homosédacticité de la variable et donc l’égalité des variances de son résidus. Ce qui est le cas de notre modèle.
Il nous reste plus que Cook’s distance
La distance de Cook’s
On peut avoir des variables aberrantes ( au lieu de 10ans , 100ans).
La distance de Cook’s mesure la distance entre la courbe sous l’hypothèse de normalité et les valeurs aberrantes. Plus la distance est grande, plus il y aura des variables aberrantes qu’il faudra aller chercher et vérifier.
Une distance de Cook’s de 1 est consideré comme une limite. Au delà de 1, il faudra aller vérifier les variables aberrantes dites influentes, et voire si il s’agit une erreur de frappe ou d’une vraie donnée.
Ici notre distance est inférieur à 1, nous n’avons donc pas de variables influentes dans ce modèle.
Nous pouvons donc convenir que notre modèle étudié qui vise à étudier à la variable dépendante DMO lombaire et les variables explicatives (âge, ménopause, ration calcique) est bon.
Je remercie toute l’équipe du LERC (laboratoire d’épidémiologe et de recherche clinque de la faculté de médecine et de pharmacie de Rabat) pour m’avoir aider à la rédaction de ce post, en particulier, notre directeur de laboratoire Pr Redouane Abouqal pour ces explications simples, claires et méthodiques et Dr Haroun Emilo pour les captures d’écran.
N’hésitez pas, encore une fois, la meilleure façon d’apprendre est de tester, essayer, se tromper, recommencer…
Dites moi si ce genre de post vous intéresse, ou si vous le trouver trop compliqué pour me permettre d’e répondre au mieux à vos questions.
A très vite
Ihsane
Je vous remercie 1000 fois pour ce post parfaitement détaillé et très intuitif, y compris pour quelqu’un dont la logique mathématiques est comme une langue étrangère. Ma note de mémoire vous remerciera certainement également! 🙂
Bonjour, j’ai apprécié la lecture de cet article qui explique assez bien les choses, de façon simple, et comment utiliser l’outil de régression linéaire dans jamovi.
Vous ne parlez pas de la valeur de R2 dans la première partie (régression linéaire simple ou multiple). Est-ce qu’on doit l’ignorer pour cette partie ?
J’avais entendu dire que la force d’effet à considérer était fonction de R et R2, comme ceci : R = .10 faible ; .24 moyen ; .45 important // Rcarré = .01 faible ; .06 moyen ; .20 important. Ces valeurs semblent elles raisonnables et de quelle façon devrions nous faire mention de cette force dans la présentation des résultats (si toutefois il faut le faire dans une régression linéaire simple).
La valeur du R2 est utile pour un certain type d’études en particulier à la recherche de critères prédictifs. Ceci dit, regardez derrière les chiffres. Il vaudrait mieux se baser sur:
– les données de la littérature
– votre expérience professionnelle / vos observations
– les résultats de l’analyse univariée
pour le choix de vos variables.
Attention aux critères de confusion qui peuvent biaisés vos résultats (et le R2 de vos modèles)
Ravie d’avoir pu vous être utile!
Bon courage pour la suite
Merci merci merci pour ce post ! Très clair, bien expliqué et agréable à lire