Quelle est la différence entre les statistiques et la science des données - et, peut-être plus important encore, pourquoi avons-nous deux domaines avec ce qui semble être le même objectif ? La meilleure façon de comprendre l'émergence de la science des données en tant que discipline à part entière, explique Herman "Gene" Ray, directeur du Center for Statistics and Analytical Research de la Kennesaw State University, est de voir la science des données comme la fusion de l'informatique et des statistiques. "La plupart des programmes de statistiques traditionnels vous enseignent beaucoup de théorie et comment résoudre des problèmes à la main, " dit-il. " Les applications informatiques sont quelque chose d'une réflexion après coup. Mais les entreprises ne vont pas analyser 100 millions d'enregistrements à la main; ils ont affaire à d'énormes échantillons de commodité. Et c'est là qu'intervient la science des données."
Et c'est là que les querelles universitaires commencent :les statisticiens disent que les scientifiques des données n'ont pas les bases statistiques ou mathématiques pour comprendre la collecte et l'analyse des données, et les scientifiques des données lèvent les yeux sur les statisticiens pour leur manque de connaissances en programmation. Cette, dit Ray, a été le plus gros obstacle auquel ils ont été confrontés pour créer l'un des premiers doctorants américains. programmes en analytique et science des données:comment faire vous combinez statistiques et informatique ? "Chacun pense pouvoir le faire sans l'autre, " dit-il. " Mais la réalité est que la plupart des statisticiens ne sont pas de très bons programmeurs, et la plupart des informaticiens ne comprennent pas vraiment certaines nuances des statistiques. Notre objectif est de combler ce fossé."
Leur solution, en partie, a tiré parti de la prise de conscience croissante des entreprises de la région d'Atlanta de l'importance des données. L'Analytics and Data Science Institute a créé neuf laboratoires de recherche parrainés, chacun axé sur les problèmes de données auxquels est confrontée une entreprise ou un service public ou à but non lucratif, et chacun avec un à quatre doctorats. étudiants dirigés par un membre du corps professoral. "Ce sont comme des groupes de réflexion miniatures explorant les problèmes du monde réel, " dit Ray. " Et ce faisant, les étudiants apprennent à comprendre le problème du point de vue informatique et statistique. » Un étudiant en statistique plus traditionnel pourrait être encouragé par un collègue à explorer les réseaux neuronaux, tandis qu'un étudiant en informatique plus traditionnel pourrait être encouragé à comprendre pourquoi il doit utiliser un échantillonnage représentatif plutôt qu'un échantillonnage de commodité.
Un projet récent impliquait de travailler avec le service d'incendie du comté de Cobb, une banlieue d'Atlanta, qui ne respectait pas les paramètres nationaux pour les normes d'incendie. « Nous avons pris toutes leurs données pour les événements d'incendie et d'ambulance - l'heure du premier appel téléphonique jusqu'au moment où l'ambulance a quitté la caserne de pompiers jusqu'au temps qu'il a fallu pour se rendre à un événement. Nous avons examiné les itinéraires et les modèles de circulation, puis optimisé les temps de réponse à l'aide de la théorie des greffes et de Google Maps." Les itinéraires ont été modifiés, zones d'incendie réaffectées, et les délais de réponse ont été réduits. "Le chef des pompiers du comté de Cobb est très au fait des données, " dit Ray, « alors il met en œuvre des changements incrémentiels, puis voit comment les données sont mises à jour. »
Les laboratoires de recherche ajoutent également une autre dimension – et de plus en plus importante – à l'expérience étudiante :comment parler à des personnes qui ne sont pas des statisticiens ou des data scientists.
"Quand j'ai été formé, l'attente était que je travaillerais avec d'autres statisticiens et présenterais à des conférences universitaires, " dit Ray. " Alors, nous parlions tous la même langue. Aujourd'hui, un data scientist pourrait s'entretenir avec un cadre, ou cliente, ou décideur, qui a très peu d'expérience en statistiques. Ils doivent être capables de lire ça très rapidement, et assurez-vous que le bon message est toujours communiqué au niveau approprié. C'est l'une des belles choses à propos de ces laboratoires :ils obligent tout le monde à apprendre à parler de manière à ce que le laboratoire réussisse. »