La nouvelle méthode d'évaluation de l'IA examine les données d'entrée elles-mêmes pour déterminer si la «précision» de l'IA est fiable. Crédit :Université de Kyoto / JB Brown
Alors que le rôle de l'IA dans la société continue de s'étendre, J B Brown de la Graduate School of Medicine présente une nouvelle méthode d'évaluation du type d'IA qui prédit des réponses oui/positives/vraies ou non/négatives/fausses.
le papier de Brown, Publié dans Informatique moléculaire , déconstruit l'utilisation de l'IA et analyse la nature des statistiques utilisées pour rendre compte de la capacité d'un programme d'IA. La nouvelle technique génère également une probabilité du niveau de performance compte tenu des données d'évaluation, répondre à des questions telles que :Quelle est la probabilité d'atteindre une précision supérieure à 90 % ?
Les rapports de nouvelles applications d'IA apparaissent dans les nouvelles presque quotidiennement, y compris dans la société et la science, la finance, médicaments, Médicament, et sécurité.
"Bien que les statistiques rapportées semblent impressionnantes, les équipes de recherche et celles qui évaluent les résultats rencontrent deux problèmes, " explique Brown. " Premièrement, de comprendre si l'IA a obtenu ses résultats par hasard, et deuxieme, pour interpréter l'applicabilité à partir des statistiques de performance rapportées."
Par exemple, si un programme d'IA est conçu pour prédire si quelqu'un gagnera ou non à la loterie, il peut toujours prédire une perte. Le programme peut atteindre « 99 % de précision », mais l'interprétation est essentielle pour déterminer l'exactitude de la conclusion selon laquelle le programme est exact.
Mais c'est là que réside le problème :dans le développement typique de l'IA, l'évaluation ne peut être fiable que s'il y a un nombre égal de résultats positifs et négatifs. Si les données sont biaisées vers l'une ou l'autre des valeurs, le système actuel d'évaluation va exagérer la capacité du système.
Alors pour résoudre ce problème, Brown a développé une nouvelle technique qui évalue les performances en se basant uniquement sur les données d'entrée elles-mêmes.
"La nouveauté de cette technique est qu'elle ne dépend d'aucun type de technologie d'IA, comme l'apprentissage en profondeur, " Brown décrit. " Cela peut aider à développer de nouvelles métriques d'évaluation en examinant comment une métrique interagit avec l'équilibre dans les données prédites. Nous pouvons alors dire si les métriques résultantes pourraient être biaisées. »
Brown espère que cette analyse ne fera pas que sensibiliser à la façon dont nous pensons à l'IA à l'avenir, mais aussi qu'il contribue au développement de plateformes d'IA plus robustes.
En plus de la métrique de précision, Brown a testé six autres métriques dans des scénarios théoriques et appliqués, constatant qu'aucune mesure n'était universellement supérieure. Il dit que la clé pour créer des plateformes d'IA utiles est d'adopter une vue multimétrique de l'évaluation.
"L'IA peut nous aider à comprendre de nombreux phénomènes dans le monde, mais pour qu'il nous fournisse une direction adéquate, il faut savoir se poser les bonnes questions. Nous devons faire attention à ne pas trop nous concentrer sur un seul chiffre comme mesure de la fiabilité d'une IA."
Le programme de Brown est accessible gratuitement au grand public, des chercheurs, et développeurs.