La régression multiple est utilisée pour examiner la relation entre plusieurs variables indépendantes et une variable dépendante. Alors que plusieurs modèles de régression vous permettent d'analyser les influences relatives de ces variables indépendantes ou prédictives sur la variable dépendante ou critère, ces ensembles de données souvent complexes peuvent conduire à de fausses conclusions s'ils ne sont pas analysés correctement.
Exemples de régression multiple
Un agent immobilier pourrait utiliser la régression multiple pour analyser la valeur des maisons. Par exemple, elle pourrait utiliser comme variables indépendantes la taille des maisons, leur âge, le nombre de chambres, le prix moyen des maisons dans le quartier et la proximité des écoles. En les traçant dans un modèle de régression multiple, elle pourrait alors utiliser ces facteurs pour voir leur relation avec les prix des maisons comme variable critère.
Un autre exemple d'utilisation d'un modèle de régression multiple pourrait être quelqu'un dans les ressources humaines déterminant le salaire des postes de direction - la variable critère. Les variables prédictives peuvent être l'ancienneté de chaque responsable, le nombre moyen d'heures travaillées, le nombre de personnes gérées et le budget départemental du responsable.
Avantages de la régression multiple
L'analyse des données à l'aide de deux avantages principaux un modèle de régression multiple. Le premier est la capacité de déterminer l'influence relative d'une ou plusieurs variables prédictives sur la valeur du critère. L'agent immobilier pourrait constater que la taille des logements et le nombre de chambres ont une forte corrélation avec le prix d'une maison, alors que la proximité des écoles n'a aucune corrélation, voire une corrélation négative s'il s'agit principalement d'une retraite communauté.
Le deuxième avantage est la capacité d'identifier les valeurs aberrantes ou les anomalies. Par exemple, lors de l'examen des données relatives aux salaires des cadres, le responsable des ressources humaines a pu constater que le nombre d'heures travaillées, la taille du service et son budget avaient tous une forte corrélation avec les salaires, contrairement à l'ancienneté. Alternativement, il se pourrait que toutes les valeurs des prédicteurs énumérées soient corrélées à chacun des salaires examinés, à l'exception d'un gestionnaire qui était surpayé par rapport aux autres.
Inconvénients de la régression multiple
Tout inconvénient d'utiliser un modèle de régression multiple se résume généralement aux données utilisées. Deux exemples de cela utilisent des données incomplètes et concluent à tort qu'une corrélation est une causalité.
Lors de l'examen du prix des maisons, par exemple, supposons que l'agent immobilier n'a examiné que 10 maisons, dont sept ont été achetées par de jeunes parents. Dans ce cas, la relation entre la proximité des écoles peut la faire croire que cela a eu un effet sur le prix de vente de toutes les maisons vendues dans la communauté. Cela illustre les pièges des données incomplètes. Si elle avait utilisé un plus grand échantillon, elle aurait pu constater que, sur 100 maisons vendues, seulement 10% de la valeur des maisons étaient liées à la proximité d'une école. Si elle avait utilisé l'âge des acheteurs comme valeur prédictive, elle aurait pu constater que les jeunes acheteurs étaient prêts à payer plus cher pour les maisons dans la communauté que les acheteurs plus âgés.
Dans l'exemple des salaires de gestion, supposons qu'il y ait une valeur aberrante qui avait un budget plus petit, moins d'ancienneté et avec moins de personnel à gérer mais qui gagnait plus que quiconque. Le responsable des ressources humaines pourrait examiner les données et conclure que cette personne est en trop. Cependant, cette conclusion serait erronée s'il ne tenait pas compte du fait que ce responsable était en charge du site Web de l'entreprise et possédait une compétence très convoitée en matière de sécurité réseau.