La régression linéaire est une méthode statistique pour examiner la relation entre une variable dépendante, appelée y, La régression linéaire est limitée aux relations linéaires Par nature, la régression linéaire ne considère que les relations linéaires entre variables dépendantes et indépendantes. Autrement dit, il suppose qu'il existe une relation linéaire entre eux. Parfois c'est incorrect. Par exemple, la relation entre le revenu et l'âge est courbe, c'est-à-dire que le revenu tend à augmenter dans les premières parties de l'âge adulte, à s'aplatir à l'âge adulte et à diminuer après le départ à la retraite. Vous pouvez dire si c'est un problème en regardant les représentations graphiques des relations. La régression linéaire ne regarde que la moyenne de la variable dépendante La régression linéaire regarde une relation entre la moyenne de la la variable dépendante et les variables indépendantes. Par exemple, si vous regardez la relation entre le poids à la naissance des nourrissons et les caractéristiques maternelles telles que l'âge, la régression linéaire se penchera sur le poids moyen des bébés nés de mères d'âges différents. Cependant, parfois, vous devez regarder les extrêmes de la variable dépendante, par exemple, les bébés sont à risque lorsque leur poids est faible, alors vous devriez regarder les extrêmes dans cet exemple. Tout comme la moyenne n'est pas une description complète d'une seule variable, la régression linéaire n'est pas une description complète des relations entre les variables. Vous pouvez résoudre ce problème en utilisant la régression quantile. La régression linéaire est sensible aux valeurs aberrantes Les valeurs aberrantes sont des données surprenantes. Les valeurs aberrantes peuvent être univariées (basées sur une variable) ou multivariées. Si vous regardez l'âge et le revenu, les valeurs aberrantes univariées seraient des choses comme une personne qui a 118 ans ou une personne qui a gagné 12 millions de dollars l'année dernière. Une valeur aberrante multivariée serait un jeune de 18 ans qui a fait 200 000 $. Dans ce cas, ni l'âge ni le revenu sont très extrêmes, mais très peu de personnes de 18 ans gagnent autant d'argent. Les valeurs aberrantes peuvent avoir des effets énormes sur la régression. Vous pouvez résoudre ce problème en demandant des statistiques d'influence à partir de votre logiciel statistique. Les données doivent être indépendantes La régression linéaire suppose que les données sont indépendantes. Cela signifie que les scores d'un sujet (comme une personne) n'ont rien à voir avec ceux d'un autre. C'est souvent, mais pas toujours, sensible. Un exemple classique de regroupement dans l'espace est celui des résultats des étudiants, lorsque vous avez des élèves de différentes classes, classes, écoles et districts scolaires. Les élèves d'une même classe tendent à être similaires de plusieurs façons, c'est-à-dire qu'ils viennent souvent des mêmes quartiers, ont les mêmes enseignants, etc. Ils ne sont donc pas indépendants. Des exemples de regroupement dans le temps toutes les études où vous mesurez les mêmes sujets plusieurs fois. Par exemple, dans une étude de régime et de poids, vous pourriez mesurer chaque personne plusieurs fois. Ces données ne sont pas indépendantes parce que ce qu'une personne pèse à une occasion est lié à ce qu'elle pèse en d'autres occasions. Une façon de gérer cela est avec des modèles multiniveaux.
et une ou plusieurs variables indépendantes, désignée par x
. La variable dépendante doit être continue, en ce sens qu'elle peut prendre n'importe quelle valeur, ou au moins proche de continue. Les variables indépendantes peuvent être de n'importe quel type. Bien que la régression linéaire ne puisse pas montrer la causalité en elle-même, la variable dépendante est généralement affectée par les variables indépendantes.