Un diagramme de dispersion est un outil de diagnostic important dans l'arsenal d'un statisticien, obtenu en traçant deux variables les unes par rapport aux autres. Il permet au statisticien d'examiner les variables et de former une hypothèse de travail sur leur relation. Pour cette raison, il est généralement tiré avant qu'une analyse de régression soit effectuée. Le statisticien teste ensuite l'hypothèse en utilisant une analyse de régression et détermine le signe et l'ampleur précise de la relation. En outre, un diagramme de dispersion permet d'identifier les valeurs aberrantes - des valeurs qui sont anormalement éloignées de la plupart des données de l'échantillon. L'élimination des valeurs aberrantes permet d'améliorer le modèle de régression.
Vérifie la relation négative entre les deux variables dans le diagramme de dispersion. Si les valeurs faibles de la première variable correspondent aux valeurs élevées de la deuxième variable, il existe une corrélation négative. Dans ce cas, une ligne tracée à travers les points de données a une pente négative.
Examinez le nuage de points pour déterminer la relation positive entre les variables. Si les valeurs faibles de la première variable dans le diagramme de dispersion correspondent aux valeurs faibles de la seconde, et les valeurs élevées de la première correspondent de façon similaire aux valeurs élevées de la seconde, les variables ont une corrélation positive. Dans ce cas, une ligne tracée à travers les points de données a une pente positive.
Inspecter le nuage de points pour vérifier l'absence de relation entre les variables. Si les points de données dans le nuage de points sont distribués de manière aléatoire sans relation apparente entre les deux, ils n'ont aucune corrélation, ou une petite corrélation statistiquement insignifiante. Dans ce cas, une ligne tracée à travers les points de données est horizontale avec une pente égale à zéro.
Ajoute une ligne à travers les points de données et examine sa forme pour évaluer la nature de la relation entre les deux variables. Une ligne droite est interprétée comme une relation linéaire, une forme incurvée suggère une relation quadratique, et une ligne qui est relativement plate avant d'être tirée vers le haut ou vers le bas est interprétée comme une relation exponentielle.
Examinez le nuage de points , valeurs anormalement éloignées du cluster de points de données. Les valeurs aberrantes faussent la relation entre les variables. Éliminez-les, mais seulement si leur absence n'affecte pas l'analyse de la relation entre les deux variables.