Sauter à un chapitre clé
Définition du coefficient de corrélation de rang de Spearman
Rappelle qu'un coefficient de corrélation du moment du produit (CCPM) est utilisé pour mesurer une corrélation linéaire entre deux variables.
Consulte les articles Corrélation et Coefficient de corrélation du moment du produit pour plus de détails.
Mais que se passe-t-il si tes données ne sont pas linéairement corrélées, ou ne peuvent même pas être mesurées sur une échelle continue ? Dans ce cas, tu peux utiliser le coefficient de corrélation de rang de Spearman. En fait, tu peux utiliser le coefficient de corrélation de rang de Spearman comme approximation du coefficient de corrélation du moment produit même si les données sont linéairement corrélées, simplement parce que le coefficient de corrélation de rang de Spearman est plus simple à calculer.
Pour plus de détails, voir Comparaison du coefficient de corrélation de rang de Spearman et du coefficient de corrélation du moment du produit.
En général, tu utiliseras le coefficient de corrélation de rang de Spearman si :
l'un ou les deux ensembles de données proviennent d'une population qui n'est pas normalement distribuée ;
la relation entre les ensembles de données n'est pas linéaire ; ou
l'un ou les deux ensembles de données sont déjà représentés sous forme de classement.
Les valeurs du coefficient de corrélation de rang de Spearman sont comprises entre \(-1\) et \(1\).
Un coefficient de corrélation de rang de Spearman de :
- \(1\) signifie que les classements sont en parfait accord ;
- \(0\) signifie qu'il n'y a pas de relation entre les classements ; et
- \(-1\) signifie que les classements sont en ordre inverse.
Souvent, le coefficient de corrélation de Spearman n'est pas exactement égal à \(1\), \(0\) ou \(-1\). En général, lorsque tu effectues un test d'hypothèse à l'aide du coefficient de corrélation de rang de Spearman, tu vérifies s'il existe ou non une relation entre les classements.
Voir Test de corrélation nulle pour plus de détails sur ce type de test d'hypothèse.
Graphique des rangs de Spearman
Lorsque tu cherches à déterminer s'il existe une corrélation en utilisant le rang de Spearman, il peut être utile de représenter les données sous forme de graphique. Rappelle-toi que tu ne cherches pas à voir si les données du graphique forment une ligne, tu cherches à voir si les classements sont les mêmes.
Dans le graphique ci-dessous, tu peux voir les classements que deux juges ont donnés lors d'une compétition. Les classements que le juge A a donnés aux concurrents sont notés par des cercles, tandis que les classements que le juge B a donnés sont notés par des croix.
Par exemple, le juge A a attribué au premier concurrent une note de 1, tandis que le juge B lui a attribué une note de 2. Bien que les données représentées ne forment pas une ligne, il apparaît que les deux juges ont donné à peu près la même note à tous les concurrents, et dans trois cas, ils ont donné exactement la même note. On peut donc s'attendre à ce que le coefficient de corrélation de Spearman pour les classements soit plus proche de \(1\) que de \(0\).
Formule du coefficient de corrélation de rang de Spearman
Pour utiliser la formule du coefficient de corrélation de rang de Spearman, il faut classer les ensembles de données. La façon dont tu les classes n'a pas d'importance (par exemple, du meilleur au pire ou du pire au meilleur) tant que tu classes les deux ensembles de la même façon. Avant d'examiner la formule, voyons un exemple d'organisation des classements.
On a demandé à deux dégustateurs de café de classer \(8\) marques de café par ordre de préférence. Leur ordre de préférence pour les marques est indiqué dans le tableau ci-dessous.
Tableau 1. Préférences des dégustateurs en matière de café.
Marque de café | A | B | C | D | E | F | G | H |
Goûter \N(x\N) | \(4\) | \(5\) | \(2\) | \(8\) | \(1\) | \(3\) | \(7\) | \(6\) |
Dégustateur \N-(y\N-)\N-(y\N) | \(4\) | \(6\) | \(1\) | \(7\) | \(3\) | \(2\) | \(5\) | \(8\) |
Le dégustateur attribue un numéro de préférence à chaque café. Tant que le dégustateur \(x\) et le dégustateur \(y\) utilisent tous deux \(1\) pour signifier la même chose sur l'échelle, tu pourras comparer les classements. Si tu ne sais pas que le dégustateur \N(x) et le dégustateur \N(y) ont utilisé \N(1) pour désigner le café qu'ils préfèrent le plus, tu ne pourras pas dire ce que signifie le coefficient de corrélation, même si tu pourras le calculer.
Pour calculer le coefficient de corrélation, tu auras besoin des valeurs suivantes :
\[ S_{xy} = \sum x_iy_i - \frac{1}{n}\sum x_i \sum y_i ; \]
\[ S_{xx} = \sum x_i^2 - \frac{1}{n} \left(\sum x_i\right)^2;\]
et
\[S_{yy} = \sum y_i^2 - \frac{1}{n} \left(\sum y_i\right)^2.\N- \N- \N- \N- \N- \N- \N- \N- \N- \N].
Le coefficient de corrélation de rang de Spearman peut alors être trouvé à l'aide de la formule suivante
\[ r_s = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} .\]
Tu peux trouver un exemple où le même score est donné à plus d'un point de données. C'est ce qu'on appelle un classement ex æquo.
Il y a égalité de rang lorsque deux ou plusieurs valeurs de données dans l'un des ensembles de données sont identiques.
Prenons un petit exemple.
Supposons qu'on ait demandé à un dégustateur de café d'attribuer au café une note alphabétique en fonction de son degré d'appréciation. Pour les cafés qu'ils ont goûtés, ils ont donné des notes de : A, C, F, D, B, C, C, C. Remarque que sur les huit cafés listés, trois d'entre eux ont une note de C ! Ainsi, si tu essayais de faire un tableau de classement, tu obtiendrais :
Tableau 2. Tableau de classement possible
Rang | \(1\) | \(2\) | \(7\) | \(8\) | ||||
Grade | A | B | C | C | C | C | D | F |
Mais que fais-tu des quatre cafés qui ont obtenu chacun un C ? Tu leur donnes un rang de 3, 4, 5 ou 6 ? Il s'avère que tu leur donnes la moyenne des notes puisqu'ils sont à égalité. En trouvant la moyenne, tu obtiens
\N[ \Nfrac{3+4+5+6}{4} = 4,5,\N]
chacun sera donc classé \(4,5\). Le tableau de classement complété serait le suivant :
Tableau 3. Tableau de classement complet
Rang | \(1\) | \(2\) | \(4.5\) | \(4.5\) | \(4.5\) | \(4.5\) | \(7\) | \(8\) |
Grade | A | B | C | C | C | C | D | F |
Remarque que dans l'exemple précédent, tu ne compares pas les rangs du goûteur \(x\N) aux rangs du goûteur \N(y\N). Tu ne fais que comparer les rangs donnés par un seul goûteur.
S'il y a plus de deux rangs ex aequo, la formule suivante s'applique
\[ r_s = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}} \]
doit être utilisée. Cependant, s'il y a deux rangs égaux ou moins, tu peux utiliser la formule suivante :
\[ r_s = 1 - \frac{6}{n(n^2-1)} \sum d^2,\]
où \(n\N) est le nombre de paires d'observations et \N(d\N) est la différence entre les rangs de chaque observation. La formule de différence te donnera une bonne approximation du coefficient de corrélation des rangs de Spearman tant qu'il n'y a pas d'égalité des rangs.
Tableau des rangs de Spearman
Une fois que tu connais le coefficient de corrélation de rang de Spearman, tu l'utiliseras souvent pour effectuer un test d'hypothèse. Bien que tu puisses utiliser la technologie pour trouver la valeur critique, il est utile de pouvoir lire un tableau de rangs de Spearman. Tu trouveras ci-dessous une section d'un tableau de rangs de Spearman.
Tableau 4. Tableau des rangs de Spearman
\N(n\N)/\N(\Nalpha \N) | \(0.1\) | \(0.05\) | \(0.25\) | \(0.01\) |
\(6\) | \(0.657\) | \(0.829\) | \(0.886\) | \(0.943\) |
\(7\) | \(0.571\) | \(0.714\) | \(0.786\) | \(0.893\) |
\(8\) | \(0.524\) | \(0.643\) | \(0.738\) | \(0.833\) |
La première colonne du tableau est la taille de l'échantillon \(n\), et la première ligne du tableau te donne le niveau de confiance. Remarque qu'à mesure que la taille de l'échantillon augmente, la valeur critique pour un niveau de confiance donné diminue. Rappelle-toi que la marge d'erreur dépend de la valeur critique :
marge d'erreur = (valeur critique)(erreur standard).
Cela signifie que si tu augmentes la taille de l'échantillon, la marge d'erreur diminuera.
Valeur critique du coefficient de corrélation de rang de Spearman
La valeur critique du coefficient de corrélation de rang de Spearman dépend de la taille de l'échantillon et du niveau de confiance que tu utilises. La valeur critique peut être trouvée à l'aide d'un tableau ou d'un logiciel statistique. Par exemple, si tu effectues un test unilatéral, avec une taille d'échantillon de \(7\), au niveau de confiance \(0,25\), tu utiliseras un tableau des coefficients de Spearman pour voir que la valeur critique est \(0,786\). Tu trouveras cette valeur critique dans le tableau ci-dessus.
En d'autres termes, pour un échantillon de \(7\), la valeur critique de \(r_s\) est significative au niveau \(0,25\) sur un test unilatéral à \(\pm 0,786\).
Exemple de coefficient de corrélation de rang de Spearman
Revenons à l'exemple du café et déterminons ce qu'est le coefficient de corrélation.
On a demandé à deux dégustateurs de café de classer huit marques de café par ordre de préférence, \(1\) étant le café qu'ils préfèrent. L'ordre de leurs préférences pour les marques est indiqué dans le tableau ci-dessous.
Tableau 5. Préférences des dégustateurs en matière de café.
Marque de café | A | B | C | D | E | F | G | H |
Goûter \N(x\N) | \(4\) | \(5\) | \(2\) | \(8\) | \(1\) | \(3\) | \(7\) | \(6\) |
Dégustateur \N-(y\N-)\N-(y\N) | \(4\) | \(6\) | \(1\) | \(7\) | \(3\) | \(2\) | \(5\) | \(8\) |
Trouve et interprète le coefficient de corrélation de rang de Spearman.
Solution :
Remarque que même si les deux dégustateurs ont classé le café A comme leur quatrième choix, il ne s'agit pas d'un exemple d'égalité de rang. Il y aurait égalité de rangs si un dégustateur donnait le même rang à deux cafés. Il est donc raisonnable d'utiliser la formule simplifiée
\[ r_s = 1 - \frac{6}{n(n^2-1)} \sum d^2 .\]
Ici, il y a huit marques de café, donc \N(n=8\N). Considère d'abord la somme,
\N- [\N- Début{align} \sum\limites_{i=1}^8 d_i^2 &= (4-4)^2 + (5-6)^2 + (2-1)^2 + (8-7)^2 \N & \Nquad + (1-3)^2 + (3-2)^2 + (7-5)^2 + (6-8)^2 \N &= 0+1+1+1+4+1+4+4 \N &= 16. \N- [end{align}\N]
Alors
\N-[\N-[\N-]r_s &= 1 - \Nfrac{6}{n(n^2-1)} \Nsum d^2 \N-[\N-]1-\frac{6}{8(8^2-1)}(16) \N-[\N-]1-\frac{6}{8(63)}(16) \N-[\N-]\N-[\N-]approximativement 0,81. \N- [end{align}\N]
Puisque \(r_s \not= 0\), tu ne peux pas dire qu'il n'y a pas de relation entre les classements. Cependant, comme il est proche de zéro, tu peux dire qu'il y a très peu de corrélation entre les classements des deux dégustateurs.
Coefficient de corrélation des rangs de Spearman - Principaux enseignements
- Utilise le coefficient de corrélation de rang de Spearman si :
l'un ou les deux ensembles de données proviennent d'une population qui n'est pas normalement distribuée ;
la relation entre les ensembles de données n'est pas linéaire ; ou
l'un des ensembles de données ou les deux sont déjà représentés sous forme de classement.
Un coefficient de corrélation de rang de Spearman de :
- \(1\) signifie que les classements sont en parfait accord ;
- \(0\) signifie qu'il n'y a pas de relation entre les classements ; et
- \(-1\) signifie que les classements sont dans l'ordre inverse.
- Un classement ex æquo se produit lorsque deux ou plusieurs valeurs de données dans l'un des ensembles de données sont identiques.
- S'il y a deux rangs égaux ou moins, tu peux utiliser la formule :
\[ r_s = 1 - \frac{6}{n(n^2-1)} \sum d^2,\]
pour calculer approximativement le coefficient de corrélation des rangs de Spearman, où \(n\) est le nombre de paires d'observations et \(d\) est la différence entre les rangs de chaque observation.
Apprends plus vite avec les 12 fiches sur Coefficient de Correlation de Rang de Spearman
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Coefficient de Correlation de Rang de Spearman
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus