Sauter à un chapitre clé
Ce détective venait de prendre en compte deux variables catégoriellesa>, la classe d'embarquement et l'écriture, mais a-t-il pu résoudre le crime ? Ici, tu apprendras ce qu'est la corrélation, le graphique, les tests et bien d'autres choses encore concernant deux variables catégorielles. Tu peux aussi devenir détective !
Graphiques de deux variables catégorielles
Plus tôt dans l'histoire du crime, il a été mentionné que le détective avait abordé l'affaire en considérant deux variables catégorielles. Qu'est-ce qu'une variable catégorielle ?
Une variable catégorielle , également appelée variable qualitative, est une variable dont les propriétés sont décrites plutôt que mesurées.
Si les propriétés d'une variable peuvent être mesurées ou comptées, on parle de variables quantitatives. Tu ne t'attarderas pas sur ces variables dans cet article.
Les définitions sont toujours mieux comprises avec des exemples !
Tu as soif dans le train, alors tu vas chercher une canette de soda. Pour être plus précis, tu achètes un soda de \(12\) oz aromatisé au citron vert, qui se présente dans une canette verte et qui contient \(40\) calories.
Dans cet exemple, les variables catégorielles sont celles que tu peux décrire, comme la saveur et la couleur de la canette. La quantité de liquide dans la boîte et le nombre de calories sont tous deux mesurables, ce sont donc des variables quantitatives.
Et que veut dire le détective lorsqu'il parle de deux variables catégorielles ?
Lorsque tu parles de deux variables catégorielles, tu parles des combinaisons que tu peux obtenir en examinant deux variables catégorielles distinctes.
Revenons à l'enquête. Le détective a pris en compte deux catégories : la classe d'internat et l'écriture. Il y a donc six combinaisons possibles qui sont produites à l'aide de ces deux catégories :
- Première classe droitière
- Classe économique droitier
- Première classe gaucher
- Classe économique gaucher
- Première classe ambidextre
- Classe économique ambidextre
Un tableau à double entrée, ou tableau de contingence, est un tableau qui organise les observations en fonction de deux variables catégorielles. Chaque cellule d'un tableau de contingence représente une combinaison de deux facteurs, et la fréquence des sujets qui entrent dans ces catégories est inscrite dans cette cellule.
Le détective a utilisé un tableau de contingence pour classer les passagers du train en fonction de la classe d'embarquement et de l'écriture.
Classe d'embarquement | |||
Première classe | Classe économique | ||
Écriture | Droit | \[30\] | \[35\] |
Gauche | \[13\] | \[11\] | |
Ambidextre | \[4\] | \[7\] |
Par exemple, en regardant le tableau, tu peux dire que 30 % des passagers de première classe sont droitiers. Tu peux trouver le reste des fréquences des autres combinaisons de facteurs en regardant la cellule correspondante.
Les fréquences d'un tableau de contingence indiquent combien de sujets font partie de chaque combinaison de deux variables catégorielles.
Généralement, les tableaux de contingence comprennent également une ligne supplémentaire en bas et une colonne supplémentaire à droite pour compter les totaux.
Classe d'embarquement | ||||
Première classe | Classe économique | Total | ||
Écriture manuscrite | Droite | \[30\] | \[35\] | \[65\] |
Gauche | \[13\] | \[11\] | \[24\] | |
Ambidextre | \[4\] | \[7\] | \[11\] | |
Total | \[47\] | \[53\] | \[100\] |
Par exemple, il y a 65 passagers droitiers et 53 passagers de la classe économique. En regardant dans le coin inférieur droit, tu découvres qu'il y a un total de \(100\) passagers.
Fréquence relative
Parfois, plutôt que de connaître les chiffres réels, tu as simplement besoin de savoir quelle fraction des sujets appartient à chaque catégorie. Cette fraction, ou ce rapport, est connue sous le nom de fréquence relative.
La fréquence relative est le rapport de la fréquence d'une observation divisée par le total des observations.
Tu souhaites peut-être savoir quelle fraction du total des suspects est composée de gauchers en première classe, alors la fréquence relative des gauchers en première classe par rapport au total des passagers est la suivante :
\[\frac{13}{100} \]
ou exprimée en pourcentage :
\[ \frac{13}{100} \cdot 100 \% = 13\%\]
Tu peux aussi trouver la fréquence relative marginale et la fréquence relative conditionnelle, qui sont deux types de fréquences relatives.
Fréquence marginale et fréquence relative marginale
Les tableaux de contingence inscrivent généralement des totaux à l'extrême droite de la colonne et sur la ligne inférieure. Ces totaux sont connus sous le nom de fréquences marginales.
La fréquence marginale est le nombre de sujets qui entrent dans chaque catégorie individuelle. La distribution marginale est constituée de toutes les fréquences marginales du tableau.
Dans le scénario du train, la distribution marginale t'indiquera la fréquence des passagers de première classe, de la classe économique, des droitiers, des gauchers et des ambidextres.
La distribution marginale doit son nom au fait que les totaux sont indiqués dans les marges du tableau.
Les fréquences marginales d'un tableau de contingence indiquent le nombre de sujets appartenant à chaque variable catégorielle individuelle.
Si tu sais comment trouver les fréquences marginales et les fréquences relatives, tu connais aussi les fréquences marginales relatives ! Chaque fois que tu utilises une fréquence marginale pour trouver un rapport, tu trouves une fréquence marginale relative.
Imagine que tu doives déterminer la fréquence marginale des passagers de la classe économique par rapport au total des suspects du tableau. Sachant que la fréquence marginale des passagers de la classe économique est \(53\) et que la fréquence totale est \(100\), la fréquence marginale relative des passagers de la classe économique est :
\[\frac{53}{100}\]
ou exprimée en pourcentage :
\[ \frac{53}{100} \cdot 100 \% = 53\%\]
Tu peux aussi appliquer ce raisonnement pour trouver d'autres fréquences. Essaie de trouver la fréquence marginale des gauchers ou la fréquence marginale relative des passagers de première classe.
Fréquence conditionnelle et fréquence relative conditionnelle
En utilisant le même tableau, si tu choisis de te concentrer sur une ligne particulière, alors tu travailleras avec une écriture particulière. De même, si tu décides de te concentrer sur une colonne particulière, alors tu as affaire à une classe d'embarquement spécifique.
Dans ce cas, tu poses une condition sur les valeurs que tu lis dans le tableau.
La fréquence conditionnelle est le nombre de sujets qui entrent dans une catégorie, en considérant que l'autre catégorie a déjà été spécifiée.
La fréquence conditionnelle a plus de sens lorsqu'on parle de fréquence relative conditionnelle.
Une fréquence relative conditionnelle est le rapport d'une fréquence conditionnelle divisée par la fréquence marginale de la catégorie spécifiée.
Généralement, le mot "donnée" est utilisé pour souligner qu'il s'agit d'une fréquence conditionnelle.
Comme d'habitude, un exemple permet de mieux comprendre cette idée.
En utilisant les informations du tableau, détermine la fréquence relative conditionnelle qu'un suspect soit gaucher étant donné qu'il se trouve sur la classe économique.
Solution :
Voici à nouveau le tableau, ce qui t'évite de faire défiler l'écran vers le haut.
Classe d'embarquement | ||||
Première classe | Classe économique | Total | ||
Écriture manuscrite | Droite | \[30\] | \[35\] | \[65\] |
Gauche | \[13\] | \[11\] | \[24\] | |
Ambidextre | \[4\] | \[7\] | \[11\] | |
Total | \[47\] | \[53\] | \[100\] |
Tableau 1. Catégories de personnes et dextérité des mains.
On te demande de trouver une certaine fréquence relative conditionnelle étant donné que le passager appartient à la classe économique. Cela signifie que tu te concentreras sur la colonne qui contient les fréquences des passagers de la classe économique.
Puisqu'on te demande de trouver la fréquence relative conditionnelle qu'un sujet soit gaucher, tu regardes maintenant la ligne contenant les passagers gauchers. Il y a \(11\) passagers de classe économique gauchers.
Enfin, divise cette fréquence par la fréquence marginale des passagers de la classe économique. Le nombre au bas de la colonne de la classe économique t'indique qu'il y a \(53\) passagers dans la classe économique, donc la fréquence relative conditionnelle qu'un suspect soit gaucher, étant donné qu'il fait partie de la classe économique, est :
\[ \frac{11}{53}\]
que tu peux écrire en pourcentage à l'aide d'une calculatrice, c'est-à-dire :
\[ \frac{11}{53} \cdot 100 \% = 20.75 \%\]
L'utilisation de la fréquence relative dans l'analyse d'un tableau de contingence te permet de réexprimer le tableau en pourcentages de la condition souhaitée, qui peut ne nécessiter qu'une seule catégorie ou une combinaison des deux. Lorsque cela est fait, un graphique peut être dessiné sous forme de diagramme circulaire ou de diagramme à barres.
Représentation graphique de deux variables catégorielles
Comme nous l'avons déjà mentionné, le tableau à double entrée est essentiel pour visualiser deux variables catégorielles. L'exemple suivant est une illustration rapide de la représentation graphique de deux variables catégorielles.
En considérant le tableau qui a été utilisé à plusieurs reprises dans ce texte, fais un graphique en camembert en considérant toutes les données fournies.
Solution :
Dans ce cas, les deux catégories doivent être représentées dans un seul diagramme circulaire. Cela signifie que le tableau de contingence doit être ré-exprimé en pourcentage pour faciliter le tracé du graphique. Tu trouveras ci-dessous le tableau correspondant aux données fournies :
Classe d'embarquement | ||||
Première classe | Classe économique | Total | ||
Écriture manuscrite | Droite | \[30\] | \[35\] | \[65\] |
Gauche | \[13\] | \[11\] | \[24\] | |
Ambidextre | \[4\] | \[7\] | \[11\] | |
Total | \[47\] | \[53\] | \[100\] |
Tableau 2. Catégories de personnes et dextérité des mains.
Chaque cellule doit être représentée en pourcentage sous la forme d'une fraction du total, qui est \(100\). Par exemple, la fréquence relative des gauchers en première classe sera calculée comme suit :
\[\frac{13}{100}\cdot 100\%=13\%\]
En répétant ce processus avec toutes les fréquences, tu obtiens le tableau suivant.
Classe d'embarquement | ||||
Première classe | Classe économique | Total | ||
Écriture manuscrite | Droite | \[30 \%\] | \[35 \% \] | \[65 \%\] |
Gauche | \[13 \%\] | \[11 \%\] | \[24 \%\] | |
Ambidextre | \[4 \%\] | \[7 \%\] | \[11 \%\] | |
Total | \[47 \%\] | \[53 \%\] | \[100 \%\] |
Tableau 3. Catégories de personnes et dextérité des mains.
Le diagramme circulaire ci-dessus illustre la représentation graphique des données recueillies par le détective et est un exemple de graphique à deux variables catégorielles.
Il est également courant de dessiner des graphiques à l'aide de fréquences relatives conditionnelles.
Le détective décide de concentrer son attention sur les passagers de première classe. Dessine un diagramme circulaire des fréquences relatives conditionnelles des passagers étant donné qu'ils sont des passagers de première classe.
Solution :
Puisqu'on te demande de dessiner un diagramme circulaire pour les passagers qui remplissent la condition d'être en première classe, tu dois te concentrer sur une telle colonne du tableau.
Passagers de première classe | |
Droitiers | \[30\] |
Gauchers | \[13\] |
Ambidextre | \[4\] |
Total | \[47\] |
Tableau 4. Catégories de personnes et dextérité des mains.
Comme d'habitude, pour dessiner un diagramme circulaire, tu dois trouver les fréquences relatives, qui dans ce cas seront des fréquences relatives conditionnelles. Pour les passagers de première classe droitiers, il s'agit de :
\[ \frac{30}{47} \cdot 100 \% = 63.8\%\]
et trouve le reste des fréquences relatives conditionnelles de la même façon, en obtenant le tableau suivant.
Passagers de première classe | |
Droitiers | \[63.8 \%\] |
Gauchers | \[ 27.7 \% \] |
Ambidextre | \[ 8.5 \% \] |
Total | \[ 100\%\] |
Tableau 5. Catégories de personnes et dextérité des mains.
Voici le diagramme circulaire qui en résulte.
N'oublie pas que tu peux aussi utiliser d'autres types de graphiques pour étudier deux variables catégorielles, comme les diagrammes à barres ou les diagrammes à barres empilées.
Deux variables catégorielles et corrélation
Il existe des tests permettant de calculer la corrélation entre deux variables catégorielles, comme la corrélation tétrachorique, la corrélation polychorique et le V de Cramer.
Chaque fois que tu traites de la corrélation au niveau AP, tu parles de la corrélation entre des variables quantitatives. Pour plus d'informations à ce sujet, jette un coup d'œil à notre article sur Deux variables quantitatives.
Le test des deux variables catégorielles
Pour vérifier l'association entre les variables d'un tableau de contingence, on utilise le test du khi-deux (ou \(X^ 2\)). Deux questions sont posées, qui forment l'hypothèse nulle et l'hypothèse alternative. L'hypothèse nulle est désignée par \(H_0\), et représente "aucune association n'existe entre les deux variables", ce qui implique que les deux variables sont effectivement indépendantes. L'autre hypothèse, désignée par \(H_a\), représente "une association entre les deux variables", ce qui implique que les deux variables sont dépendantes.
Pour plus d'informations sur le test du khi-deux et sur la façon de l'effectuer, consulte notre article sur les tests du khi-deux.
Régression avec deux variables catégorielles
En plus d'étudier la relation entre les données que tu as collectées, les statistiques peuvent également être utilisées pour prédire les résultats. Si tu disposes d'un ensemble de données suffisamment important, tu peux commencer à faire des prédictions basées sur les données que tu as collectées précédemment. C'est l'idée principale de l'analyse de régression.
L'analyse de régression est un ensemble de techniques utilisées en statistiques pour trouver un modèle mathématique capable de décrire la relation entre deux variables (ou plus).
L'analyse de régression est généralement effectuée sur des variables quantitatives parce que tu travailles avec les valeurs numériques de ces variables. Cependant, dans certains cas, il est possible d'attribuer une valeur numérique à une variable catégorielle, ce qui permet d'utiliser les techniques de régression. L'exemple suivant te semble peut-être familier.
À des fins administratives, les restaurants ont souvent recours à des enquêtes pour évaluer la satisfaction des clients. Cette satisfaction peut être considérée comme une variable catégorielle, qui sera généralement décrite à l'aide de mots tels que :
- Terrible
- Mauvais
- Normal
- Bon
- Excellent
Cependant, tu ne peux pas faire d'opérations avec ces mots. Une façon de faire face à cette situation est d'attribuer des valeurs numériques à chacune des catégories possibles, de sorte que la phrase suivante peut maintenant te sembler familière :
"Sur une échelle allant de \(1\) à \(5\), où \(1\) est terrible et \(5\) est excellent, comment évaluerais-tu le service ?".
De cette façon, tu peux attribuer une valeur numérique à chacun des mots possibles que tu aurais utilisés.
- Terrible
- Mauvais
- Normal
- Bon
- Excellent
Si tu as l'impression que le service était presque excellent, cette méthode te permettra également de donner des valeurs intermédiaires, comme \(4.8\).
Une fois que tu as attribué des valeurs numériques aux variables catégorielles, tu peux maintenant commencer à faire des régressions avec. Tu dois simplement t'assurer que les valeurs numériques attribuées sont suffisamment raisonnables. Pour plus d'informations sur l'analyse de régression, jette un coup d'œil à notre article sur la régression linéaire.
Exemples de deux variables catégorielles
Tu devrais essayer autant d'exemples que possible pour développer tes compétences sur les tâches impliquant deux variables catégorielles.
Le détective décide maintenant de se concentrer sur l'enquête sur les droitiers. Dessine un diagramme circulaire des fréquences relatives conditionnelles des passagers étant donné qu'ils sont droitiers.
Solution :
Puisqu'on te demande de dessiner un diagramme circulaire pour les passagers qui remplissent la condition d'être droitier, tu dois te concentrer sur la ligne correspondante du tableau.
Première classe | Classe économique | Total | |
Droitiers | \[30\] | \[35\] | \[65\] |
Tableau 6. Catégories de personnes et dextérité des mains pour les droitiers.
Les fréquences relatives sont toujours nécessaires pour dessiner des diagrammes circulaires, alors trouve-les en utilisant la méthode habituelle. Tu obtiendras ainsi le tableau suivant.
Première classe | Classe économique | Total | |
Droitiers | \[46.2 \% \] | \[ 53.8 \%\] | \[ 100 \%\] |
Tableau 7. Catégories de personnes et dextérité des mains pour les droitiers.
À l'aide de ce tableau, tu peux dessiner le diagramme circulaire de ces fréquences relatives conditionnelles.
Tu te souviens de la scène du crime ? Pendant que le détective menait son enquête, il a confirmé que le crime avait été perpétré par une personne ambidextre de la première classe, qui avait également la grippe. En posant une condition supplémentaire, le détective a réduit les recherches ! Cependant, le seul ambidextre grippé dans le train était... MOI. Ai-je commis un meurtre ? Attends la suite de l'exemple suivant pour le confirmer.
Une enquête a été menée pour déterminer la relation entre la sociabilité d'une population et la taille de sa famille. Ici, on a demandé à un individu s'il se considérait comme sociable ou non et s'il était issu d'une famille de quatre personnes et moins, ou d'une famille de plus de quatre personnes. Les résultats sont présentés ci-dessous.
Catégories | Sociable | Pas sociable |
Famille de quatre personnes ou moins | \[40\] | \[50\] |
Famille de plus de quatre personnes | \[90\] | \[20\] |
Tableau 8. Catégories de personnes et leur sociabilité.
a. Trouve la fréquence relative des individus issus d'une famille de taille supérieure à quatre, par rapport à l'ensemble des individus échantillonnés.
b. Détermine la fréquence relative conditionnelle qu'un individu soit issu d'une famille de quatre personnes et moins, étant donné qu'il n'est pas sociable.
c. Fais un graphique à partir des informations données.
Solution :
Puisque ces informations ne te sont pas fournies, tu dois commencer par trouver les fréquences marginales et les ajouter au tableau de contingence. Ici, il te suffit d'additionner les valeurs des lignes et des colonnes.
Catégories | Sociable | Pas sociable | Total |
Taille de la famille de quatre personnes ou moins | \[40\] | \[50\] | \[90\] |
Famille de plus de quatre personnes | \[90\] | \[20\] | \[110\] |
Total | \[130\] | \[70\] | \[200\] |
Tableau 9. Catégories de personnes et leur sociabilité .
Maintenant, tu peux répondre aux questions.
a. Il s'agit de la fréquence marginale des individus qui proviennent de familles dont la taille est supérieure à quatre, divisée par le total des individus échantillonnés. C'est :
\[\frac{110}{200}=\frac{11}{20}\]
ou exprimé en pourcentage
\[ \frac{11}{20} \cdot 100 \% = 55 \%\]
b. On te demande de trouverla fréquence relative conditionnelle qu'un individu soit issu d'une famille de quatre personnes et moins, étant donné qu'il n'est pas sociable. La condition posée ici est que l'individu n'est pas sociable, tu te concentreras donc sur la colonne correspondante.
Ensuite, va à la ligne correspondante pour découvrir que \(50\) individus de cette catégorie sont également issus d'une famille de quatre personnes et moins. Pour trouver la fréquence relative conditionnelle, tu divises ce nombre par le total des individus non sociables, donc :
\[\frac{50}{70}=\frac{5}{7}\]
ou exprimé en pourcentage
\[ \frac{5}{7} \cdot 100 \% = 71.4\%\]
c. Un diagramme à barres peut être dessiné pour donner une interprétation visuelle des données fournies. Cependant, il serait bénéfique d'avoir un tableau séparé des données en pourcentages, comme indiqué ci-dessous :
Catégories | Sociable | Pas sociable | Total |
Taille de la famille de quatre personnes ou moins | \[ 20\%\] | \[25 \%\] | \[45 \%\] |
Taille de la famille de plus de quatre personnes | \[ 45 \% \] | \[ 10 \% \] | \[ 55 \% \] |
Total | \[ 65 \% \] | \[ 35 \% \] | \[ 100 \% \] |
Tableau 10. Catégories de personnes et leur sociabilité .
Le graphique à barres ci-dessous est une représentation des données fournies :
Après que le détective a révélé que j'étais le coupable, je me suis réveillé de mon rêve fatigué. Néanmoins, tout ce que tu as appris ici est basé sur des principes statistiques et s'avérera très utile lorsque tu essaieras d'accomplir d'autres tâches. Tu vois que les statistiques peuvent être utiles même pour résoudre des crimes ?
Deux variables catégorielles - Principaux enseignements
- Les variables à deux catégories sont des représentations de données organisées en fonction de deux facteurs ou groupes, autrement appelés catégories.
- Lorsque l'on étudie deux variables catégorielles, on les classe généralement dans des tableaux de contingence, également connus sous le nom de tableaux à double entrée.
- Chaque valeur d'un tableau de contingence représente la fréquence des individus appartenant à chaque combinaison des deux variables catégorielles.
- Les tableaux de contingence comprennent généralement des totaux dans leurs marges. Ces totaux sont appelés fréquences marginales.
- Les fréquences marginales d'un tableau de contingence indiquent le nombre de sujets appartenant à chaque variable catégorielle.
- La fréquence relative est lafraction d'un événement par rapport à la fréquence totale d'une expérience statistique .
- Une fréquence relative conditionnelle peut être obtenue en divisant l'une des fréquences du tableau par la fréquence marginale de la catégorie utilisée comme condition.
- Les données issues de l'étude de deux variables catégorielles peuvent être organisées à l'aide des graphiques typiques utilisés pour les données catégorielles, tels que les diagrammes à barres et les diagrammes circulaires.
Apprends plus vite avec les 13 fiches sur Deux Variables Catégorielles
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Deux Variables Catégorielles
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus