Avoir des données à portée de main ne suffit pas, les data scientists doivent savoir les appliquer. Crédits :Gorodenkoff/Shutterstock
Le monde est inondé de données. Il y a un tsunami virtuel de données qui circulent dans le monde entier, se renouveler quotidiennement. Prenez seulement les marchés financiers mondiaux. Ils génèrent de grandes quantités de données – cours des actions, prix des matières premières, indices, prix des options et futures, pour en nommer quelques uns.
Mais les données ne servent à rien s'il n'y a pas de personnes capables de collecter, collationner, l'analyser et l'appliquer au profit de la société. Toutes ces données générées par les marchés financiers mondiaux sont utilisées pour la gestion d'actifs et de patrimoine - et elles doivent être correctement analysées et comprises pour éclairer une bonne prise de décision. C'est là qu'intervient la science des données.
L'objectif principal de la science des données est d'extraire des informations à partir de données sous diverses formes, à la fois structuré et non structuré. C'est un domaine pluridisciplinaire, impliquant tout, des mathématiques appliquées aux statistiques et de l'intelligence artificielle à l'apprentissage automatique. Et ça grandit. Cela est dû aux progrès de la technologie informatique et de la vitesse de traitement, le coût relativement faible du stockage des données, et la disponibilité massive de données provenant d'Internet et d'autres sources telles que les marchés financiers mondiaux.
Pour que la science des données se réalise, bien sûr, vous avez besoin de data scientists. Parce que la science des données est si vaste, être un data scientist couvre un large éventail de professions. Il s'agit notamment des statisticiens, chercheurs en opérations, ingénieurs, informaticiens, actuaires, physiciens et apprenants automatiques.
Cette variété n'est pas nécessairement une mauvaise chose. De ma propre expérience pratique, J'ai rapidement appris que lors de la résolution de problèmes de science des données, vous avez besoin d'un éventail de personnes. Certains peuvent travailler en profondeur sur la théorie et d'autres peuvent explorer le domaine d'application.
Mais comment ces data scientists devraient-ils être formés pour être prêts à relever les défis du big data qui les attendent ?
Les scientifiques des données utilisent généralement des techniques mathématiques innovantes de leurs propres sous-domaines pour essayer de résoudre des problèmes dans un domaine d'application particulier. Les domaines d'application - finance, santé, l'agriculture et l'astronomie ne sont que quelques exemples – sont très différents. Cela signifie que chacun pose des problèmes différents, Les scientifiques des données ont donc besoin de connaissances sur le domaine d'application particulier.
Par exemple, pensez à l'astrophysique et au Square Kilometer Array en cours de construction à la pointe sud de l'Afrique. Ce sera le plus grand radiotélescope du monde lorsqu'il sera achevé au milieu des années 2020. Le réseau de télescopes est censé recevoir des données à un téraoctet par seconde et les chercheurs sont généralement intéressés par l'analyse des masses de données afin de détecter de minuscules signaux engloutis dans le bruit blanc.
En finance, les chercheurs exploitent les grandes bases de données de manière très différente :par exemple pour en savoir plus sur le comportement de crédit de leurs clients.
Les sous-domaines les plus établis de la science des données sont les statistiques et la recherche opérationnelle et il pourrait être intéressant de tirer des enseignements des programmes de formation établis dans ces domaines. Les universités forment-elles suffisamment de diplômés dans ces domaines ? Et cette formation est-elle suffisante ?
Bien que les étudiants dans ces domaines soient bien formés académiquement, de nombreux diplômés en statistiques et en recherche opérationnelle manquent de connaissances sur les domaines dans lesquels ils sont censés appliquer les techniques mathématiques. Ils ont également tendance à se battre avec des capacités de résolution de problèmes du monde réel, ainsi que le manque de compétences en programmation numérique et en gestion de données. En effet, ces compétences ne sont pas abordées de manière adéquate dans de nombreux programmes.
Donc, tirer de ces échecs et des leçons des sous-domaines établis de la science des données, qu'est-ce que les universités devraient enseigner aux aspirants data scientists ? Voici ma liste.
Cette liste pourrait être élargie au niveau postuniversitaire. Et, que ce soit au niveau du premier cycle ou du troisième cycle, tous ces cours devraient avoir un élément pratique. Cela permet aux étudiants de développer à la fois le professionnalisme et les compétences en résolution de problèmes.
Par exemple, au Centre for Business Mathematics and Informatics de l'Université du Nord-Ouest d'Afrique du Sud, mes collègues et moi avons organisé un programme de formation professionnelle qui permet aux étudiants de travailler pendant six mois dans une entreprise cliente pour résoudre un problème spécifique de l'industrie. Ces problèmes se situent principalement dans le domaine financier; par exemple, des modèles pour prédire la capacité et la volonté de payer d'un client, modèles d'amélioration des collections et modèles d'identification des fraudes.
Cela aide les étudiants à développer les compétences nécessaires pour fonctionner dans le monde du travail, manipuler des données réelles et les appliquer à des problèmes réels plutôt que de simplement travailler à un niveau théorique. Ça aussi, en tant que collègue et moi-même avons soutenu dans des recherches antérieures, aide à combler l'écart entre les universités et l'industrie et rend ainsi la science des données plus pertinente. Les programmes BMI ont été reconnus et recommandés par des experts internationaux.
Science des données, comme un champ, ne fera que croître au cours des prochaines décennies. Il est impératif que les universités forment des diplômés capables de gérer d'énormes tranches de données, travailler en étroite collaboration avec les industries qui produisent et appliquent ces données - et faire des données quelque chose qui peut changer le monde pour le mieux.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.