• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Tester l'équité de l'IA pour prédire le taux de décrochage universitaire

    Crédit :Unsplash/CC0 Domaine public

    Pour aider les étudiants en difficulté avant qu'il ne soit trop tard, de plus en plus d'universités adoptent des modèles d'apprentissage automatique pour identifier les étudiants à risque de décrochage.

    Les informations qui entrent dans ces modèles peuvent avoir un effet important sur leur précision et leur équité, surtout en ce qui concerne les caractéristiques protégées des élèves comme le sexe, la race et le revenu familial. Mais dans une nouvelle étude, le plus grand audit d'un système d'IA collégial à ce jour, les chercheurs ne trouvent aucune preuve que la suppression des caractéristiques protégées des élèves d'un modèle améliore l'exactitude ou l'équité des prédictions.

    Ce résultat a surpris René Kizilcec, professeur assistant en sciences de l'information et directeur du Future of Learning Lab.

    « Nous nous attendions à ce que la suppression des caractéristiques sociodémographiques rende le modèle moins précis, en raison de la façon dont ces caractéristiques sont établies dans l'étude de la réussite scolaire, " a-t-il dit. " Bien que nous trouvions que l'ajout de ces attributs n'offre aucun avantage empirique, nous vous recommandons de les inclure dans le modèle, parce qu'il reconnaît à tout le moins l'existence d'iniquités éducatives qui leur sont encore associées. »

    Kizilcec est l'auteur principal de « Les modèles de prédiction de décrochage universitaire devraient-ils inclure des attributs protégés ? » qui sera présenté à la conférence virtuelle de l'Association for Computing Machinery sur l'apprentissage à grande échelle, 22-25 juin. Le travail a été nominé pour le prix du meilleur article de la conférence.

    Les co-auteurs sont Hannah Lee, membres du Future of Learning Lab, un étudiant à la maîtrise dans le domaine de l'informatique, et auteur principal Renzhe Yu, doctorant à l'Université de Californie, Irvine.

    Pour ce travail, Kizilcec et son équipe ont examiné les données sur les étudiants à la fois dans un collège résidentiel et dans un programme entièrement en ligne. L'institution de l'étude est une grande université publique du sud-ouest des États-Unis, qui n'est pas nommé dans le document.

    En comparant systématiquement les modèles prédictifs avec et sans attributs protégés, les chercheurs visaient à déterminer à la fois comment l'inclusion d'attributs protégés affecte l'exactitude de la prédiction du décrochage universitaire, et si l'inclusion d'attributs protégés affecte l'équité de la prédiction du décrochage collégial.

    L'ensemble de données des chercheurs était énorme :un total de 564, 104 dossiers de suivi de cours résidentiels pour 93, 457 étudiants uniques et 2, 877 parcours uniques; et 81, 858 dossiers de cours en ligne pour 24, 198 étudiants uniques et 874 cours uniques.

    À partir du jeu de données, L'équipe de Kizilcec a construit 58 caractéristiques d'identification dans quatre catégories, dont quatre attributs protégés :le sexe de l'élève; statut collégial de première génération; membre d'un groupe minoritaire sous-représenté (défini comme ni asiatique ni blanc); et un besoin financier élevé. Pour déterminer les conséquences de l'utilisation d'attributs protégés pour prédire l'abandon, les chercheurs ont généré deux ensembles de caractéristiques, l'un avec des attributs protégés et l'autre sans.

    Leur principale conclusion :l'inclusion de quatre attributs protégés importants n'a pas d'effet significatif sur trois mesures courantes des performances de prédiction globales lorsque des fonctionnalités couramment utilisées, y compris les dossiers académiques, sont déjà dans le modèle.

    "Ce qui compte pour identifier les élèves à risque s'explique déjà par d'autres attributs, " dit Kizilcec. " Les attributs protégés n'apportent pas grand-chose. Il peut y avoir un écart entre les sexes ou un écart racial, mais son association avec le décrochage est négligeable par rapport à des caractéristiques comme la GPA antérieure."

    Cela dit, Kizilcec et son équipe préconisent toujours l'inclusion d'attributs protégés dans la modélisation des prévisions. Ils notent que les données sur l'enseignement supérieur reflètent des inégalités de longue date, et ils citent des travaux récents dans la communauté plus large de l'apprentissage automatique qui soutiennent la notion de « l'équité par la sensibilisation ».

    "Il y a eu des travaux montrant que la façon dont certains attributs, comme le dossier scolaire, influencer la probabilité d'un étudiant de persévérer à l'université peut varier selon les différents groupes d'attributs protégés, " a-t-il dit. " Et ainsi, en incluant les caractéristiques des élèves dans le modèle, nous pouvons expliquer cette variation entre les différents groupes d'étudiants."

    Les auteurs ont conclu en déclarant :« Nous espérons que cette étude inspirera davantage de chercheurs des communautés de l'analyse de l'apprentissage et de l'exploration de données éducatives à s'attaquer aux problèmes de biais algorithmique et d'équité dans les modèles et les systèmes qu'ils développent et évaluent ».

    Le laboratoire de Kizilcec a beaucoup travaillé sur l'équité algorithmique dans l'éducation, ce qu'il a dit est un sujet peu étudié.

    "C'est en partie parce que les algorithmes [dans l'éducation] ne sont pas aussi visibles, et ils fonctionnent souvent de manières différentes par rapport à la justice pénale ou à la médecine, " a-t-il dit. " Dans l'éducation, il ne s'agit pas d'envoyer quelqu'un en prison, ou être faussement diagnostiqué pour le cancer. Mais pour l'étudiant individuel, cela peut être un gros problème d'être signalé comme à risque."


    © Science https://fr.scienceaq.com