• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Un serment d'Hippocrate pour la science des données ? Bien se contenter d'un peu plus de data littératie

    biais, bias out :de nombreux algorithmes ont des problèmes de conception inhérents. Crédits :Vintage Tone/Shutterstock

    "Je jure par Hypatie, par Lovelace, par Turing, par Fisher (et/ou Bayes), et par tous les statisticiens et data scientists, en faisant mes témoins, que je vais exécuter, selon ma capacité et mon jugement, ce serment et cet engagement."

    Serait-ce la première ligne d'un "serment d'Hippocrate" pour les mathématiciens et les data scientists ? Hannah Fry, Professeur associé en mathématiques des villes à l'University College London, soutient que les mathématiciens et les scientifiques des données ont besoin d'un tel serment, tout comme les médecins qui jurent de n'agir que dans le meilleur intérêt de leurs patients.

    "En médecine, vous apprenez l'éthique dès le premier jour. En mathématiques, c'est au mieux un boulon. Il doit être présent dès le premier jour et au premier plan de votre esprit à chaque pas que vous faites, " argua Fry.

    Mais une version technologique du serment d'Hippocrate est-elle vraiment nécessaire ? En médecine, ces serments varient selon les institutions, et ont beaucoup évolué dans les presque 2, 500 ans de leur histoire. En effet, il y a un débat sur la question de savoir si le serment reste pertinent pour les médecins en exercice, d'autant plus que c'est la loi, plutôt qu'un ensemble de principes grecs anciens, auxquels ils doivent finalement se conformer.

    Comment la science des données a-t-elle atteint le point où un engagement éthique est jugé nécessaire ? Il existe certainement de nombreux exemples d’algorithmes nuisibles – algorithmes de condamnation pénale, par exemple, ont démontré qu'ils recommandaient de manière disproportionnée que les personnes à faible revenu et appartenant à des minorités soient envoyées en prison.

    Des crises similaires ont déjà conduit à des propositions de promesses éthiques. Au lendemain de la crise financière mondiale de 2008, un manifeste des ingénieurs financiers Emanuel Derman et Paul Wilmott a exhorté les modélisateurs économiques à jurer de ne pas « donner aux personnes qui utilisent mon modèle un faux réconfort quant à son exactitude. Au lieu de cela, Je vais expliciter ses hypothèses et ses oublis."

    Tout comme les préjugés peuvent être appris comme un enfant, les biais de ces algorithmes résultent de leur apprentissage. Une caractéristique commune de ces algorithmes est l'utilisation d'algorithmes de type boîte noire (souvent propriétaires), dont beaucoup sont formés à l'aide de données statistiquement biaisées.

    Dans le cas de la justice pénale, le résultat injuste de l'algorithme vient du fait qu'historiquement, les minorités sont surreprésentées dans les populations carcérales (probablement en raison de préjugés humains de longue date). Ce biais est donc répliqué et probablement exacerbé par l'algorithme.

    Les algorithmes d'apprentissage automatique sont entraînés sur des données, et on ne peut s'attendre qu'à produire des prédictions qui se limitent à ces données. biais, biais.

    Promesses, promesses

    Est-ce que prendre un gage éthique aurait aidé les concepteurs de ces algorithmes ? Peut-être, mais une plus grande prise de conscience des biais statistiques aurait pu suffire. Les problèmes de représentation impartiale dans l'échantillonnage ont longtemps été une pierre angulaire des statistiques, et la formation sur ces sujets peut avoir conduit les concepteurs à prendre du recul et à remettre en question la validité de leurs prédictions.

    Fry elle-même a commenté cette question dans le passé, disant qu'il est nécessaire que les gens « prêtent attention à la façon dont les biais que vous avez dans les données peuvent finir par se répercuter sur les analyses que vous faites ».

    Mais si les problèmes de représentation impartiale ne sont pas nouveaux dans les statistiques, l'utilisation croissante d'algorithmes puissants dans les domaines litigieux rend la « data littératie » plus pertinente que jamais.

    Une partie du problème réside dans la facilité avec laquelle les algorithmes d'apprentissage automatique peuvent être appliqués, faire en sorte que la data littératie ne soit plus l'apanage des mathématiciens et informaticiens, mais au grand public. Une alphabétisation de base généralisée en matière de statistiques et de données aiderait à prendre conscience des problèmes liés aux biais statistiques, et sont une première étape vers la protection contre l'utilisation inappropriée des algorithmes.

    Personne n'est parfait, et bien que l'amélioration de la littératie des données aidera, des biais involontaires peuvent encore être négligés. Les algorithmes peuvent également comporter des erreurs. Un moyen facile (à décrire) de se prémunir contre de tels problèmes est de les rendre accessibles au public. Un tel code open source peut permettre une responsabilité conjointe pour la vérification des biais et des erreurs.

    Des efforts de ce genre commencent à émerger, par exemple le Web Transparency and Accountability Project à l'Université de Princeton. Bien sûr, de nombreux algorithmes propriétaires sont commerciaux confidentiels, ce qui rend la transparence difficile. Les cadres réglementaires sont donc susceptibles de devenir importants et nécessaires dans ce domaine. Mais une condition préalable est pour les praticiens, Les politiciens, avocats, et d'autres pour comprendre les problèmes liés à l'applicabilité généralisée des modèles, et leurs biais statistiques inhérents.

    L'éthique est sans aucun doute importante, et dans un monde parfait ferait partie de toute éducation. Mais les diplômes universitaires sont limités. Nous soutenons que les données et la littératie statistique sont une préoccupation encore plus urgente, et pourrait aider à se prémunir contre l'apparition de plus « algorithmes contraires à l'éthique » à l'avenir.

    Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.




    © Science https://fr.scienceaq.com