Sauter à un chapitre clé
Corrélation : définition
La corrélation mesure à quel point il y a un lien numérique entre deux variables. Une corrélation forte entre deux variables statistiques implique que quand une variable change, l'autre variable change proportionnellement. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.
Plus nous buvons de l'eau, plus de fois nous avons besoin d'aller aux toilettes. Nous pouvons donc dire qu'il y a une corrélation entre le volume d'eau qu'une personne boit et le nombre de fois qu'elle va aux toilettes.
Autrement dit, nous cherchons à savoir si, disposant de deux variables \(x\) et \(y\), nous pouvons écrire \(y = f(x)\), avec \(f\) une fonction connue. Même s'il peut y avoir plusieurs types de corrélations entre variables, nous considérons souvent des coefficients de corrélation linéaire. En d'autres termes, nous souhaitons savoir si les deux variables peuvent être reliées à l'aide d'une fonction affine ou linéaire.
Coefficient de corrélation
Un coefficient de corrélation mesure la corrélation entre deux variables. En effet, un coefficient de corrélation nous indique le lien statistique entre les deux variables. Il y a plusieurs coefficients de corrélation, mais celui qui est le plus souvent utilisé est le coefficient de corrélation linéaire, également appelé le coefficient de Bravais-Pearson.
Le coefficient de corrélation linéaire de deux variables \(x\) et \(y\) est noté \(r\) ou \(\rho (x,y)\). Il se calcule à l'aide de la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \] où \(cov(x,y)\) est la covariance de \(x\) et \(y\) et \(var(x)\) (\(var(y)\)) est la variance de \(x\) (de \(y\)).
La variance mesure les variations d'une série statistique ou une variable aléatoire. Comme son nom l'indique, la covariance mesure comment varie une variable par rapport à une autre.
La covariance de deux séries statistiques \(x = x_1, x_2, ... , x_n\) et \(y = y_1, y_2, ... , y_n\) est notée \(cov(x,y)\). Elle se calcule avec la formule : \[ cov(x,y) = \sum_{i=1}^n \frac{(x_i - \bar{x})(y_i - \bar{y})}{n} \] où \( \bar{x} \) est la moyenne de \(x\).
Pour une variable \(x\), nous avons \(cov(x,x) = var(x)\).
Nous pouvons calculer le coefficient de corrélation grâce aux formules citées au-dessus. Or, avec certaines calculatrices, il suffit d'entrer les séries statistiques pour calculer le coefficient de corrélation linéaire. Une fois calculé, il faut savoir comment interpréter le coefficient de corrélation, qui peut prendre des valeurs entre \(-1\) et \(1\), compris.
Si le coefficient est positif, alors quand une variable augmente, l'autre augmente aussi.
En revanche, si le coefficient est négatif, alors quand une variable augmente, l'autre diminue.
De plus, si la valeur absolue du coefficient est plus proche de \(1\), le lien est plus fort. Et tu peux imaginer : si la valeur absolue du coefficient est plus proche de \(0\), le lien est plus faible.
Corrélation positive
Si deux variables ont une corrélation positive, l'augmentation (ou la diminution) d'une variable implique l'augmentation (ou diminution) de l'autre. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente positive.
Tu veux tout comprendre sur les nuages de points ? Consulte notre explication sur ce sujet en cliquant sur le lien ci-dessus.
Si la corrélation est moins forte, il est plus difficile d'envisager une droite. Or, nous pouvons en faire un ajustement affine.
Corrélation négative
Si deux variables ont une corrélation négative, l'augmentation d'une variable implique la diminution de l'autre, et vice-versa. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente négative.
Avec une corrélation moins forte, le nuage de points ressemblerait à l'image ci-dessous.
La droite qui est le plus près possible du nuage de points est appelée la droite de régression ou la droite des moindres carrés. Ces appellations sont dues aux méthodes d'ajustement affine souvent utilisées pour construire la droite : la régression linéaire et la méthode des moindres carrés.
Corrélation et causalité
Les personnes ont tendance à confondre la corrélation et la causalité. Comme nous l'avons expliqué ici, la corrélation est une mesure mathématique du lien entre deux variables. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.
Un lien de causalité est une relation entre deux variables ou phénomènes qui dit qu'une variable affecte l'autre via un raisonnement logique. Nous pouvons également considérer la causalité comme un type de corrélation où une variable dépend de l'autre.
Si une entreprise vend plus de leurs produits, alors leurs revenus augmentent. Nous pouvons alors dire qu'il y a un lien de causalité entre le nombre de produits vendus et les revenus. Ici, les revenus dépendent du nombre de produits vendus. Le nombre de produits vendus est donc appelé la variable explicative et le revenu est la variable expliquée.
Différence entre corrélation et causalité
Ces concepts sont très similaires, mais ils ne sont pas pareils. Quelle est donc la différence entre la corrélation et la causalité ? Regardons un exemple qui montre que la corrélation n'implique pas la causalité.
Depuis la révolution industrielle, nous avons observé à la fois une hausse conséquente de la production de dioxyde de carbone CO2, ainsi que du taux d'obésité. Nous pouvons donc établir une corrélation statistique entre ces deux variables. Or, il n'y a pas de preuve scientifique qui indique que l'obésité est dûe au CO2. Cependant, nous pouvons présenter des arguments logiques qui montrent que l'industrialisation est à l'origine de ces deux phénomènes. Dans ce cas, l'industrialisation est une variable cachée : elle n'est pas l'objet de l'étude statistique mais elle a une influence sur les variables considérées.
Matrice de corrélation
Si nous disposons de plus que deux séries statistiques, nous pouvons examiner la corrélation entre chaque couple de variables à l'aide d'une matrice de corrélation. Les coefficients de cette matrice sont les coefficients de corrélation pour chaque couple de variables.
Si nous disposons des séries statistiques \(X_1, ... , X_n\), alors les coefficients de la matrice de corrélation associée, \(R\), sont données par \(R_{ij} = \rho (X_i,X_j) \).
Cette matrice nous permet d'analyser les relations entre plusieurs variables en même temps.
Si tu as besoin de rafraîchir tes connaissances sur les matrices, n'hésite pas à consulter notre explication à ce sujet.
Corrélation - Points clés
- La corrélation mesure le lien mathématique entre deux variables statistiques.
- Nous pouvons calculer le coefficient de corrélation linéaire grâce à la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \]
- S'il y a une corrélation positive entre deux variables, l'augmentation d'une variable implique l'augmentation de l'autre. S'il y a une corrélation négative entre deux variables, l'augmentation d'une variable implique la diminution de l'autre.
- La corrélation n'implique pas la causalité.
- Avec plusieurs séries statistiques \(X_1, ... , X_n\), nous pouvons créer une matrice de corrélation, \(R\), dont les coefficients sont \(R_{ij} = \rho (X_i,X_j) \).
Apprends plus vite avec les 3 fiches sur Corrélation
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Corrélation
Comment définir la corrélation ?
La corrélation mesure à quel point il y a un lien statistique entre deux variables. En d'autres termes, nous cherchons à savoir s'il existe une fonction f, telle que nous pouvons écrire y = f(x), pour des variables x et y.
Qu'est-ce qu'une corrélation entre deux variables ?
La corrélation est une mesure du lien mathématique entre deux variables statistiques.
Comment savoir si 2 variables sont corrélées ?
Pour savoir si deux variables sont corrélées, il faut calculer leur coefficient de corrélation. Plus proche cette valeur est à 1 ou -1, plus les deux variables sont corrélées.
Quand parle-t-on de corrélation ?
La corrélation entre deux séries statistiques nous donne une idée si nous pouvons établir une formule qui relie les deux. La corrélation mesure à quel point il y a un lien numérique entre deux variables.
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus