Les activités commerciales, gouvernementales et universitaires exigent presque toujours la collecte et l'analyse de données. L'une des façons de représenter les données numériques est à travers des graphiques, des histogrammes et des graphiques. Ces techniques de visualisation permettent aux gens de mieux comprendre les problèmes et de concevoir des solutions. Les lacunes, les clusters et les valeurs aberrantes sont des caractéristiques des ensembles de données qui influencent l'analyse mathématique et sont facilement visibles sur les représentations visuelles.
Trous dans les données
Les espaces se réfèrent à des zones manquantes dans un ensemble de données. Par exemple, si une expérience scientifique recueille des données de température dans la plage de 50 degrés Fahrenheit à 100 degrés Fahrenheit, mais rien entre 70 et 80 degrés, cela représenterait un écart dans l'ensemble de données. Un tracé de lignes de cet ensemble de données aurait des marques «x» pour des températures entre 50 et 70 et entre 80 et 100, mais rien entre 70 et 80. Les chercheurs peuvent approfondir et explorer pourquoi certains points de données n'apparaissent pas dans un échantillon collecté.
Groupes isolés
Les clusters sont des groupes isolés de points de données. Les tracés linéaires, qui sont l'une des façons de représenter les ensembles de données, sont des lignes avec des marques «x» placées au-dessus de nombres spécifiques pour décrire leur fréquence d'occurrence dans l'ensemble de données. Un cluster est décrit comme une collection de ces marques "x" dans un petit intervalle ou un sous-ensemble de données. Par exemple, si les résultats d'un examen pour une classe de 10 élèves sont 74, 75, 80, 72, 74, 75, 76, 86, 88 et 73, le plus grand nombre de «X» sur un tracé de intervalle de score de -76. Cela représenterait un cluster de données. Notez que la fréquence pour 74 et 75 est de deux, mais pour tous les autres scores, elle est de un.
Aux extrèmes
Les valeurs aberrantes sont des valeurs extrêmes - des points de données qui sont significativement en dehors des autres valeurs un ensemble de données. Une valeur aberrante doit être significativement inférieure ou supérieure à la majorité des nombres d'un ensemble de données. La définition de «extrême» dépend de la circonstance et un consensus des analystes impliqués dans la recherche. Les valeurs aberrantes peuvent être de mauvais points de données, également connus sous le nom de bruit, ou ils peuvent contenir des informations précieuses sur le phénomène étudié et la méthodologie de collecte de données elle-même. Par exemple, si les scores de classe se situent principalement entre 70 et 80, mais que quelques scores se situent dans les 50 premiers, ils peuvent représenter des valeurs aberrantes.
Tout mettre ensemble
, les valeurs aberrantes et les grappes dans les ensembles de données peuvent avoir une incidence sur les résultats de l'analyse mathématique. Les lacunes et les groupes peuvent représenter des erreurs dans la méthodologie de collecte de données. Par exemple, si une enquête téléphonique n'interroge que certains codes régionaux, tels que les complexes d'habitation à loyer modéré ou les zones résidentielles suburbaines haut de gamme, et non un échantillon représentatif de la population, il y aura probablement des lacunes et des grappes dans les données. . Les valeurs aberrantes peuvent fausser la valeur moyenne ou moyenne d'un ensemble de données. Par exemple, la valeur moyenne ou moyenne d'un ensemble de données composé de quatre nombres - 50, 55, 65 et 90 - est 65. Sans la valeur aberrante 90, cependant, la moyenne est d'environ 57.