Sauter à un chapitre clé
Peux-tu utiliser ces données pour prédire la note d'une personne en fonction du nombre d'heures d'étude ?
En utilisant la régression linéaire, il est effectivement possible de faire une estimation raisonnable basée sur des données passées. Cet article te montrera comment trouver la ligne de régression linéaire des moindres carrés afin de faire des prédictions basées sur des données déjà collectées.
Explication de la régression linéaire des moindres carrés
Lorsque tu analyses des données à deux variables, tu as deux variables : la variable dépendante ou réponse , généralement désignée par \(y\), et la variable indépendante ou explicative , généralement désignée par \(x\).
Lorsque \(y\) est la variable dépendante et \(x\) la variable indépendante, on peut dire que \(y\) dépend de \(x\).
Supposons que tu aies recueilli des données sur deux variables, \N(y\N) et \N(x\N), où le résultat de \N(y\N) dépend de \N(x\N). Il semble également y avoir une relation linéaire entre les variables. Comment pourrais-tu prédire la valeur de \(y\) pour une valeur donnée de \(x\) ?
Au GCSE, tu as peut-être dû tracer une ligne de meilleur ajustement où tu as utilisé ton propre jugement pour déterminer dans quelle "direction" les données allaient. La ligne de régression des moindres carrés permet de faire cela mathématiquement.
Une droite de régression des moindres carrés est utilisée pour prédire les valeurs de la variable dépendante pour une variable indépendante donnée lors de l'analyse de données à deux variables.
Résidus
Si tu as déjà vu des données à deux variables, tu sais qu'il est très rare que les points de données tombent exactement le long d'une ligne droite, même s'il existe une "relation" linéaire confirmée entre les variables.
Il peut y avoir plusieurs raisons à ces imprécisions (par exemple, d'autres facteurs affectant la variable dépendante ou des relevés inexacts lors de la collecte des données). Il y a tellement de facteurs et de causes possibles pour ces inexactitudes que tu peux supposer qu'elles sont entièrement dues au hasard.
Dans l'image ci-dessous, tu peux voir une "ligne de meilleur ajustement" pour les points de données \((x_1,y_1)\), \((x_2,y_2)\), \((x_3,y_3)\) et \((x_4,y_4)\). Note que la ligne ne touche aucun de ces points.
La différence verticale entre ces points et la ligne de meilleur ajustement est indiquée par \(\epsilon _1\), \(\epsilon _2\), \(\epsilon _3\) et \(\epsilon _4\). Il s'agit des résidus associés à chaque point de données.
La différence entre la variable dépendante observée (\(y_i\)) et la variable dépendante prédite \(x_i\) est appelée résidu (\(\epsilon _i\)).
Bien que ces résidus signifient que la prédiction n'est pas exacte à 100 %, ils sont en fait essentiels pour trouver la droite de régression des moindres carrés : en minimisant les carrés de ces résidus. D'où le nom de" régression par lesmoindres carrés ".
La droite de régression des moindres carrés de \(y\) sur \(x\) est celle qui minimise la somme des carrés des résidus,
$$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$
où \(\epsilon _i\) est le résidu du point de données \((x_i,y_i)\).
Méthode de régression linéaire des moindres carrés
La méthode de régression linéaire des moindres carrés est utilisée pour trouver la droite de régression. L 'objectif principal de cette méthode est de minimiser lasomme des carrés des résidus des points de données dans un ensemble de données .
Calcul de la droite de régression linéaire des moindres carrés
Bien que cela puisse sembler compliqué, trouver la droite de régression est en fait assez simple.
Comme pour toute ligne droite en mathématiques, tu as besoin de deux choses : une \(y\)-interception et un gradient. Heureusement, il existe une formule simple pour trouver ces deux éléments.
Formule de régression linéaire des moindres carrés
La ligne de régression de \(y\) sur \(x\) est
$$y=ax+b$$
où \(a=\dfrac{S_{xy}}{S_{xx}}\) et \(b=\bar{y}-a\bar{x}\), où
$$S_{xy}=\sum x_iy_i - \dfrac{\sum x_i \sum y_i}{n}$$$S_{xx}=\sum x_i^2 - \dfrac{(\sum x_i)^2}{n}$$$S_{yy}=\sum y_i^2 - \dfrac{(\sum y_i)^2}{n}$$$.
Les statistiques sommaires \(S_{xy}\), \(S_{xx}\) et \(S_{yy}\) peuvent t'être données lors d'un examen, ou tu peux aussi avoir besoin de les trouver à partir des données brutes à l'aide d'une calculatrice.
Exemple résolu de régression linéaire des moindres carrés
Tu es maintenant prêt à appliquer cette méthode à une éventuelle question d'examen.
Le nombre d'heures étudiées par les élèves et leurs résultats à l'examen sont consignés dans le tableau ci-dessous.
Temps d'étude en heures | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
Résultat de l'examen | \(49\) | \(81\) | \(71\) | \(83\) | \(99\) |
a. Calcule \(S_{xy}\) et \(S_{xx}\).
b. Trouve la droite de régression de \(y\) sur \(x\).
c. Reporte les points de données et la ligne de régression sur le même graphique.
d. Interprète la signification de \(a=10.2\) et \(b=46\) dans le contexte de la question.
e. Prédis la note d'un élève qui étudie pendant
i) 2,5 heures
ii) \N(8\N) heures.
f. Commente tes réponses pour la partie e).
Solution
a. À l'aide de ta calculatrice, tu peux facilement trouver les résultats suivants,
\(\sum x=15\) \(\sum x^2=55\) \(\bar{x}=3\) \(\sum xy=1,251\) \(\sum y=383\) \(\sum y^2=30,693\) \(\bar{y}=76.6\).
Il suffit d'insérer ces résultats dans les formules détaillées ci-dessus pour obtenir les statistiques récapitulatives.
\N-( \Nbegin{align}) S_{xx} &=\sum x^2 - \dfrac{(\sum x)^2}{n} \N&= 55 - \Ndfrac{15^2}{5} \\&= 10. \N-{align}\N-{align}})
\N-( \N- début{align}) S_{xy} &= \sum xy - \dfrac{\sum x \sum y}{n}\&= 1251 - \dfrac{15 \times 383}{5} \\&= 102. \NFin{align}\N)
b. En commençant par \(a\), le gradient de la ligne,
\[a=\dfrac{S_{xy}}{S_{xx}}=\frac{102}{10}=10.2.\]
L'ordonnée à l'origine est donc
\(b=\bar{y}-a\bar{x}=76.6-10.2 fois 3=46\).
Par conséquent, la ligne de régression est \N(y=10.2x+46\N).
c. C'est une excellente question pour revérifier ton travail - il sera évident que tu as fait de graves erreurs de calcul !
d. Puisque \(a=10,2\), pour chaque heure supplémentaire sur l'axe \(x\), l'élève obtient \(10,2\) points de plus à l'examen.
Puisque \(b=46\), si un élève n'étudiait pas du tout, il obtiendrait quand même (selon la ligne de régression) 46 points.
e. Saisis simplement les chiffres ci-dessus pour \(x\).
i) Si \(x=2,5\), \(y=10,2\ fois 2,5+46=71,5\).
ii) Si \(x=8\N), \N(y=10,2\Nfois 8+46=127,6\N).
f. Il y a un problème fondamental pour la partie ii) : puisque les examens sont notés en pourcentage, la note \(127,6\N) n'existe pas ! En réalité, pour tout laps de temps supérieur à 5 heures, les données ne contiennent aucune information sur ce qu'il advient des notes des élèves.
Bien que tu puisses déduire que pour toute durée supérieure à 5 heures, 100 % serait une bonne prédiction, cela dépasse la portée des données et du modèle de régression linéaire.
Tu dois garder à l'esprit que l'utilisation d'une droite de régression ne doit jamais servir à prédire les valeurs qui se situent dans l'intervalle des données à partir desquelles tu déduis cette droite de régression, c'est-à-dire l'interpolation.
Si tu essayes de faire des prédictions en dehors de cette plage, cela s'appelle une extrapolation et c'est moins fiable car les données peuvent se comporter différemment.
Le plus difficile dans ce sujet est de s'assurer que tu entres les bons chiffres dans ta calculatrice ! Assure-toi de revérifier tes calculs lors de l'examen afin de ne pas perdre des points faciles.
Régression linéaire des moindres carrés - Principaux enseignements
- Une droite de régression des moindres carrés est utilisée pour prédire les valeurs de la variable dépendante pour une variable indépendante donnée lors de l'analyse de données bivariées.
- La différence entre la variable dépendante observée (\(y_i\)) et la variable dépendante prédite est appelée résidu (\(\epsilon _i\)).
- La droite de régression des moindres carrés de \(y\) sur \(x\) est celle qui minimise la somme des carrés des résidus :
$$\epsilon _1 ^2 +\epsilon _2 ^2 + \epsilon _3 ^2 + ...$$
où \(\epsilon _i\) est le résidu du point de données \((x_i,y_i)\).
La droite de régression de \(y\) sur \(x\) est
$$y=ax+b$$
où \(a=\dfrac{S_{xy}}{S_{xx}}\) et \(b=\bar{y}-a\bar{x}\).
- Les statistiques récapitulatives sont :
\(S_{xy}=\sum xy - \dfrac{\sum x \sum y}{n}\)
\(S_{xx}=\sum x^2 - \dfrac{(\sum x)^2}{n}\)
\(S_{yy}=\sum y^2 - \dfrac{(\sum y)^2}{n}\)
Apprends plus vite avec les 8 fiches sur Régression linéaire des moindres carrés
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Régression linéaire des moindres carrés
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus