Crédit :CC0 Domaine public
Les systèmes d'apprentissage automatique étant désormais utilisés pour tout déterminer, des cours des actions aux diagnostics médicaux, il n'a jamais été aussi important de regarder comment ils arrivent à des décisions.
Une nouvelle approche du MIT démontre que le principal coupable n'est pas seulement les algorithmes eux-mêmes, mais comment les données elles-mêmes sont collectées.
"Les informaticiens s'empressent souvent de dire que le moyen de rendre ces systèmes moins biaisés consiste simplement à concevoir de meilleurs algorithmes, " dit l'auteur principal Irene Chen, un doctorat étudiant qui a écrit l'article avec le professeur du MIT David Sontag et l'associé postdoctoral Fredrik D. Johansson. "Mais les algorithmes sont aussi bons que les données qu'ils utilisent, et nos recherches montrent que vous pouvez souvent faire une plus grande différence avec de meilleures données."
En regardant des exemples précis, les chercheurs ont pu à la fois identifier les causes potentielles des différences de précision et quantifier l'impact individuel de chaque facteur sur les données. Ils ont ensuite montré comment changer la façon dont ils collectaient les données pouvait réduire chaque type de biais tout en conservant le même niveau de précision prédictive.
« Nous considérons cela comme une boîte à outils pour aider les ingénieurs en apprentissage automatique à déterminer les questions à poser à leurs données afin de diagnostiquer pourquoi leurs systèmes peuvent faire des prédictions injustes, " dit Sontag.
Chen dit que l'une des plus grandes idées fausses est que plus de données, c'est toujours mieux. Obtenir plus de participants n'aide pas nécessairement, puisque puiser dans exactement la même population conduit souvent à une sous-représentation des mêmes sous-groupes. Même la base de données d'images populaire ImageNet, avec ses millions d'images, s'est avéré biaisé en faveur de l'hémisphère nord.
Selon Sontag, souvent, l'essentiel est de sortir et d'obtenir plus de données de ces groupes sous-représentés. Par exemple, l'équipe a examiné un système de prévision des revenus et a constaté qu'il était deux fois plus susceptible de classer à tort les femmes comme à faible revenu et les hommes comme à haut revenu. Ils ont découvert que s'ils avaient multiplié l'ensemble de données par 10, ces erreurs se produiraient 40 pour cent moins souvent.
Dans un autre jeu de données, les chercheurs ont découvert que la capacité d'un système à prédire la mortalité en unité de soins intensifs (USI) était moins précise pour les patients asiatiques. Les approches existantes pour réduire la discrimination ne feraient que rendre les prédictions non asiatiques moins précises, ce qui est problématique lorsque vous parlez de paramètres comme les soins de santé qui peuvent littéralement être la vie ou la mort.
Chen dit que leur approche leur permet d'examiner un ensemble de données et de déterminer combien de participants supplémentaires de différentes populations sont nécessaires pour améliorer la précision pour le groupe avec une précision inférieure tout en préservant la précision pour le groupe avec une précision plus élevée.
"Nous pouvons tracer des courbes de trajectoire pour voir ce qui se passerait si nous en ajoutions 2, 000 personnes de plus contre 20, 000, et à partir de là, déterminez la taille de l'ensemble de données si nous voulons avoir le meilleur des mondes, " dit Chen. " Avec une approche plus nuancée comme celle-ci, les hôpitaux et autres institutions seraient mieux équipés pour faire des analyses coûts-avantages pour voir s'il serait utile d'obtenir plus de données. »
Vous pouvez également essayer d'obtenir des types de données supplémentaires de vos participants existants. Cependant, cela n'améliorera pas les choses non plus si les données supplémentaires ne sont pas réellement pertinentes, comme des statistiques sur la taille des gens pour une étude sur le QI. La question devient alors de savoir comment identifier quand et pour qui vous devez collecter plus d'informations.
Une méthode consiste à identifier des groupes de patients présentant de fortes disparités de précision. Pour les patients en soins intensifs, une méthode de regroupement sur du texte appelée modélisation thématique a montré que les patients cardiaques et cancéreux présentaient tous deux de grandes différences raciales en termes de précision. Cette découverte pourrait suggérer que davantage de tests de diagnostic pour les patients cardiaques ou cancéreux pourraient réduire les différences raciales en matière de précision.
L'équipe présentera l'article en décembre lors de la conférence annuelle sur les systèmes de traitement de l'information neuronale (NIPS) à Montréal.