L'analyse de cluster est une méthode d'organisation des données en groupes représentatifs basée sur des caractéristiques similaires. Chaque membre du cluster a plus de points communs avec les autres membres du même groupe qu'avec les membres des autres groupes. Le point le plus représentatif du groupe s'appelle le centroïde. Habituellement, c'est la moyenne des valeurs des points de données dans le cluster.
Organisez les données. Si les données consistent en une seule variable, un histogramme peut être approprié. Si deux variables sont impliquées, gravez les données sur un plan de coordonnées. Par exemple, si vous regardez la taille et le poids des écoliers dans une classe, tracez les points de données pour chaque enfant sur un graphique, le poids étant l'axe horizontal et la hauteur étant l'axe vertical. Si plus de deux variables sont impliquées, des matrices peuvent être nécessaires pour afficher les données.
Regroupez les données en grappes. Chaque cluster doit être constitué des points de données les plus proches. Dans l'exemple de taille et de poids, regroupez tous les points de données qui semblent proches les uns des autres. Le nombre de grappes, et si chaque point de données doit être dans un cluster, peut dépendre des objectifs de l'étude.
Pour chaque grappe, ajoutez les valeurs de tous les membres. Par exemple, si une grappe de données comprenait les points (80, 56), (75, 53), (60, 50) et (68,54), la somme des valeurs serait (283, 213).
Divisez le total par le nombre de membres du cluster. Dans l'exemple ci-dessus, 283 divisé par quatre est 70.75, et 213 divisé par quatre est 53.25, de sorte que le centroïde du cluster est (70.75, 53.25).
Tracer les centroïdes du cluster et déterminer si des points sont plus proches à un centroïde d'un autre cluster qu'ils ne le sont au centroïde de leur propre groupe. Si des points sont plus proches d'un centroïde différent, redistribuez-les au cluster contenant le centroïde le plus proche.
Répétez les étapes 3, 4 et 5 jusqu'à ce que tous les points de données soient dans le cluster contenant le centroïde le plus proche
Astuce
Si le centroïde doit être un point particulier de données au lieu d'un point médian entre les données, alors la médiane peut être utilisée pour le déterminer, au lieu de la moyenne. >