Lorsque vous créez des modèles dans les statistiques, vous les testez généralement, en vous assurant que les modèles correspondent aux situations réelles. Le résidu est un nombre qui vous aide à déterminer à quel point votre modèle théorisé est proche du phénomène dans le monde réel. Les résidus ne sont pas trop difficiles à comprendre: ce ne sont que des chiffres qui représentent à quelle distance un point de données est de ce qu'il "devrait être" selon le modèle prévu.
Définition mathématique
Mathématiquement, un résidu est la différence entre un point de données observé et la valeur attendue - ou estimée - de ce que ce point de données aurait dû être. La formule pour un résidu est R \u003d O - E, où «O» signifie la valeur observée et «E» signifie la valeur attendue. Cela signifie que les valeurs positives de R affichent des valeurs supérieures aux attentes, tandis que les valeurs négatives affichent des valeurs inférieures aux attentes. Par exemple, vous pourriez avoir un modèle statistique qui dit que lorsque le poids d'un homme est de 140 livres, sa taille doit être de 6 pieds ou 72 pouces. Lorsque vous sortez et collectez des données, vous pouvez trouver quelqu'un qui pèse 140 livres mais mesure 5 pieds 9 pouces ou 69 pouces. Le résidu est alors de 69 pouces moins 72 pouces, ce qui vous donne une valeur négative de 3 pouces. En d'autres termes, le point de données observé est de 3 pouces en dessous de la valeur attendue.
Vérification des modèles
Les résidus sont particulièrement utiles lorsque vous souhaitez vérifier si votre modèle théorisé fonctionne dans le monde réel. Lorsque vous créez un modèle et calculez ses valeurs attendues, vous théorisez. Mais lorsque vous allez collecter des données, vous constaterez peut-être que les données ne correspondent pas au modèle. Une façon de trouver ce décalage entre votre modèle et le monde réel est de calculer les résidus. Par exemple, si vous constatez que vos résidus sont tous loin de vos valeurs estimées, votre modèle peut ne pas avoir de théorie sous-jacente solide. Un moyen simple d'utiliser les résidus de cette manière est de les tracer.
Tracer les résidus
Lorsque vous calculez les résidus, vous avez une poignée de nombres, ce qui est difficile à interpréter pour les humains. Le traçage des résidus peut souvent vous montrer des modèles. Ces modèles peuvent vous amener à déterminer si le modèle convient bien. Deux aspects des résidus peuvent vous aider à analyser un tracé des résidus. Premièrement, les résidus pour un bon modèle devraient être dispersés des deux côtés de zéro. Autrement dit, un tracé de résidus devrait avoir à peu près la même quantité de résidus négatifs que les résidus positifs. Deuxièmement, les résidus devraient sembler être aléatoires. Si vous voyez un motif dans votre tracé résiduel, tel qu'il présente un motif linéaire ou courbe clair, votre modèle d'origine peut avoir une erreur.
Résidus spéciaux: valeurs aberrantes
valeurs aberrantes ou résidus de valeurs extrêmement grandes , apparaissent inhabituellement loin des autres points de votre tracé de résidus. Lorsque vous trouvez un résidu qui est une valeur aberrante dans votre ensemble de données, vous devez y réfléchir attentivement. Certains scientifiques recommandent de supprimer les valeurs aberrantes car ce sont des «anomalies» ou des cas spéciaux. D'autres recommandent une enquête plus approfondie pour savoir pourquoi vous avez un si gros résidu. Par exemple, vous pourriez faire un modèle de la façon dont le stress affecte les notes scolaires et théoriser que plus de stress signifie généralement de mauvaises notes. Si vos données montrent que cela est vrai, sauf pour une personne, qui a un stress très faible et des notes très faibles, vous pourriez vous demander pourquoi. Une telle personne pourrait tout simplement ne pas se soucier de quoi que ce soit, y compris l'école, expliquant le grand résidu. Dans ce cas, vous pourriez envisager de retirer le résidu de votre ensemble de données car vous souhaitez modéliser uniquement les élèves qui se soucient de l'école.