Charlotte Laclau, Responsable pédagogique du Mastère Spécialisé Big Data de Télécom Paris nous présente les limites de l'apprentissage automatique et comment anticiper ses problèmes.
L'apprentissage automatique appartient au domaine de l’intelligence artificielle. Il se situe à la frontière de l'informatique et des mathématiques appliquées. La notion d'apprentissage englobe toute procédure algorithmique qui construit un modèle mathématique à partir de données observées, pour prendre des décisions sur de nouvelles données non observées. L'objectif d'apprentissage d'un tel algorithme est donc d'extraire et d'exploiter automatiquement l'information contenue dans les données.
Ce domaine a connu un essor sans précédent ces 20 dernières années, et les algorithmes développés dans ce cadre, jouent un rôle prépondérant dans la prise de décisions. Ces dernières impactent notre vie quotidienne dans des secteurs variés, allant du divertissement au médical. Dans ce contexte où une erreur de décision peut avoir un impact négatif significatif sur une personne (par exemple une erreur de diagnostic médical), la question de la robustesse de ces approches, c'est-à-dire leur capacité à produire des résultats cohérents pour des données non observées, se pose naturellement.
Entre autres, on peut distinguer trois grandes catégories de problèmes résultant d’un manque de robustesse : la discrimination, la vulnérabilité aux adversaires et la compréhension de la tâche. Tous ces problèmes ont un point commun : ils surviennent lorsque la distribution de nouvelles données diffèrent de celle des données vues par l’algorithme en phase d’apprentissage.
- Les algorithmes d’apprentissage discriminent les minorités. Cette discrimination résulte directement de la sous représentation de certaines franges de la société dans les données utilisées par l’algorithme pour s’entrainer. En effet, ces algorithmes ont besoin d’un nombre suffisant de données pour apprendre à résoudre une tâche. Prenons l’exemple d’un algorithme de reconnaissance faciale exclusivement entrainé sur des photos d’hommes, puis déployé dans des systèmes à travers le monde. Une fois déployé, nous observerons des performances équivalentes à l’humain pour des personnes dont les critères physiques s’approchent des individus vu en phase d’apprentissage, et des performances quasiment aléatoires pour les femmes.
- Les algorithmes d’apprentissage sont vulnérables à des perturbations imperceptibles par l’humain. Ces perturbations, communément appelées attaques adverses, sont spécifiquement conçues pour tromper les algorithmes. Il est donc essentiel, pour des applications aux enjeux de sécurité élevés, comme le développement de véhicules autonomes, de s’interroger sur ces potentielles failles.
- Enfin, les algorithmes d’apprentissage n’affichent pas une compréhension de la tâche qu’ils doivent résoudre. Un biais dans les données peut amener un algorithme à résoudre une tâche qui n’est pas celle pour laquelle il a été développé. Considérons un algorithme dont l’objectif est de différencier une tumeur maligne d’une tumeur bénigne à partir de photos. Il est courant, sur ce type d’image que les médecins marquent au feutre les tumeurs suspectes. Dans ce contexte, l’algorithme va probablement simplifier sa tâche en ne faisant la différence qu’entre les images qui présentent les marquages au feutre ou pas. De ce fait, en l’absence de marquage au feutre, l’algorithme décidera que toutes les tumeurs sont bénignes.
Pour anticiper et pallier ces problèmes, plusieurs mécanismes peuvent être mis en place dont l’audit régulier des algorithmes d’apprentissage mis en production, une analyse fine des données utilisées pour l’entrainement et le développement d’algorithmes interprétables. Autant de compétences que Télécom Paris attache à enseigner au sein de son Mastère Spécialisé Big Data qui forme les futurs data scientists, responsables pour appréhender toutes les facettes et le potentiel de l’apprentissage automatique.