• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Les systèmes statistiques suisses renforcés par le big data

    Crédit :CC0 Domaine public

    Un énorme volume de données numériques a été récolté, stockées et partagées au cours des dernières années à partir de sources telles que les médias sociaux, des systèmes de géolocalisation et des images aériennes de drones et satellites, offrant aux chercheurs de nombreuses nouvelles façons d'étudier l'information et de décrypter notre monde. En Suisse, l'Office fédéral de la statistique (OFS) s'est intéressé à la révolution du big data et aux possibilités qu'elle offre de générer des statistiques prédictives au profit de la société.

    Les méthodes conventionnelles telles que les recensements et les enquêtes restent la référence pour générer des indicateurs socio-économiques au niveau municipal, niveaux cantonal et national. Mais ces méthodes peuvent maintenant être complétées par des principalement des données préexistantes, provenant de sources telles que les abonnements de téléphonie mobile et les cartes de crédit. Selon la stratégie d'innovation des données 2017 de l'OFS, "Le but de l'innovation des données est d'améliorer la qualité, la portée et la rentabilité des produits statistiques et de réduire la charge de réponse des ménages et des entreprises."

    Données anonymisées

    Dans ce contexte, une équipe de scientifiques du Laboratoire sur les relations homme-environnement dans les systèmes urbains de l'EPFL (HERUS) a mené une étude inédite sur les nouvelles utilisations des données détenues par les compagnies d'assurance. Entreprise partenaire leader du laboratoire, La Mobilière, fourni des données anonymisées de centaines de milliers d'assurés. Ces données comprenaient des facteurs tels que l'âge, code postal résidentiel, l'auto et l'accession à la propriété, et le statut d'emploi.

    «Nous voulions voir si nous pouvions utiliser ces données pour prédire des indicateurs socio-économiques spécifiques, qui pourraient nous donner une meilleure image de la qualité des zones urbaines suisses. Un gros avantage des données détenues par les assureurs, à condition qu'ils le souhaitent. pour le partager, c'est qu'ils sont bon marché à utiliser, puisqu'ils existent déjà, et des enquêtes annuelles peuvent être réalisées sans frais supplémentaires, " dit Emanuele Massaro, un auteur principal de l'étude, qui a été publié dans PLOS UN le 3 mars.

    En utilisant des techniques d'exploration de données, l'équipe de recherche a extrait les informations pertinentes et les a agrégées pour couvrir les 170 villes suisses les plus peuplées. Dans tout, ils en ont obtenu près de 600, 000 profils, chacun identifié par un code unique. « Le jeu de données de La Mobilière est très complet, il contient un large éventail d'informations qui nous ont permis de prendre en compte plus de 30 variables, que nous avons utilisé principalement pour sélectionner les variables qui correspondent le mieux à chaque indicateur socio-économique, " dit Lorenzo Donadio, un étudiant en Master en sciences et ingénierie de l'environnement à l'EPFL et premier auteur de l'étude.

    Un modèle de régression spatiale

    Les scientifiques ont développé un modèle de régression spatiale pour prédire avec précision douze variables dans six catégories :population, transport, travail, espace et région, logement, et l'économie. "Bien sûr, nos prédictions ne peuvent pas remplacer les recensements officiels, mais ils peuvent servir de panneaux indicateurs annuels. Nous voulions également montrer que les ensembles de données des assureurs contiennent une grande quantité d'informations socialement pertinentes - au-delà de ce qu'ils utilisent pour le marketing et les études de marché - et que les assureurs devraient envisager de travailler plus étroitement avec les chercheurs, " dit Massaro.

    Le modèle statistique de l'équipe a été développé uniquement à des fins de recherche et n'a aucune application pratique en tant que telle. Il pourrait être utilisé pour aider à guider les décideurs, mais des données de recensement régulières sont encore nécessaires. Il manque certaines informations aux données de La Mobilière, comme pour les jeunes de moins de 18 ans, mais sont néanmoins représentatifs d'une grande partie de la population. « Notre modèle pourrait être utilisé par les décideurs municipaux et les bureaux de statistique gouvernementaux, qui pourraient intégrer ce type d'informations dans leurs efforts de modernisation. Les ensembles de données des assureurs sont très granulaires car ils contiennent des informations très spécifiques sur leurs clients, " dit Massaro.


    © Science https://fr.scienceaq.com