La régression multiple est utilisée pour examiner la relation entre plusieurs variables indépendantes et une variable dépendante. Bien que les modèles de régression multiple vous permettent d'analyser les influences relatives de ces variables indépendantes, ou prédicteurs, sur la variable dépendante ou critère, ces ensembles de données souvent complexes peuvent mener à des conclusions fausses si elles ne sont pas analysées correctement. h2> Exemples de régression multiple
Un agent immobilier pourrait utiliser la régression multiple pour analyser la valeur des maisons. Par exemple, elle pourrait utiliser comme variables indépendantes la taille des maisons, leur âge, le nombre de chambres à coucher, le prix moyen des maisons dans le quartier et la proximité des écoles. En les plaçant dans un modèle de régression multiple, elle pourrait alors utiliser ces facteurs pour voir leur relation aux prix des maisons comme variable critère.
Un autre exemple d'utilisation d'un modèle de régression multiple pourrait être une personne en ressources humaines déterminant le salaire des postes de gestion - la variable critère. Les variables prédictives peuvent être l'ancienneté de chaque manager, le nombre moyen d'heures travaillées, le nombre de personnes gérées et le budget départemental du manager.
Avantages de la régression multiple
Il y a deux avantages principaux à analyser des données en utilisant un modèle de régression multiple. Le premier est la capacité à déterminer l'influence relative d'une ou de plusieurs variables prédictives sur la valeur du critère. L'agent immobilier pourrait trouver que la taille des maisons et le nombre de chambres ont une forte corrélation avec le prix d'une maison, alors que la proximité des écoles n'a aucune corrélation, voire une corrélation négative si c'est principalement une retraite community.
Le deuxième avantage est la capacité à identifier les valeurs aberrantes ou les anomalies. Par exemple, en examinant les données sur les salaires de la direction, le gestionnaire des ressources humaines pourrait constater que le nombre d'heures travaillées, la taille du ministère et son budget ont tous une forte corrélation avec les salaires, contrairement à l'ancienneté. Autrement, il se pourrait que toutes les valeurs de prédicteurs énumérées aient été corrélées à chacun des salaires examinés, à l'exception d'un gestionnaire qui était trop payé par rapport aux autres.
Inconvénients de la régression multiple
Tout inconvénient lié à l'utilisation d'un modèle de régression multiple revient généralement aux données utilisées. Deux exemples de cela sont l'utilisation de données incomplètes et la conclusion erronée qu'une corrélation est une cause.
Lors de l'examen du prix des maisons, par exemple, supposons que l'agent immobilier a examiné seulement 10 maisons, dont sept ont été achetées par de jeunes parents. Dans ce cas, la relation entre la proximité des écoles peut l'amener à croire que cela a eu un effet sur le prix de vente de toutes les maisons vendues dans la communauté. Ceci illustre les pièges des données incomplètes. Si elle avait utilisé un échantillon plus important, elle aurait pu constater que, sur 100 maisons vendues, seulement 10% des valeurs de la maison étaient liées à la proximité d'une école. Si elle avait utilisé l'âge des acheteurs comme valeur prédictive, elle aurait pu constater que les jeunes acheteurs étaient prêts à payer plus pour les maisons dans la communauté que les acheteurs plus âgés.
Dans l'exemple des salaires de la direction, supposons qu'il y avait un aberrant qui avait un budget plus petit, moins d'ancienneté et moins de personnel à gérer, mais qui gagnait plus que n'importe qui d'autre. Le gestionnaire des ressources humaines pourrait examiner les données et conclure que cette personne est trop payée. Cependant, cette conclusion serait erronée s'il ne tenait pas compte du fait que ce gestionnaire était responsable du site Web de l'entreprise et possédait des compétences très convoitées en matière de sécurité des réseaux.