Abstract

L’exposé portera sur un cadre de prédiction conformelle "sensible à l'atypicité" pour la prédiction du décrochage étudiant. Les établissements s’appuient de plus en plus sur des modèles de machine learning pour identifier les étudiants à risque, mais ces modèles produisent des scores ponctuels qui ne disent rien sur la fiabilité de la prédiction, en particulier pour des profils atypiques (reprise d’études, parcours non standard, etc.) peu représentés dans les données historiques. La prédiction conformelle, au contraire, ne renvoie pas une étiquette unique mais un ensemble de labels possibles pour chaque étudiant : {décrochage}, {non-décrochage}, ou {décrochage, non-décrochage} pour signaler une situation ambiguë. Concrètement, on entraîne d’abord un modèle prédictif "classique", puis on construit ces ensembles à partir des résidus du modèle sur un jeu de calibration, en calculant un score d’incertitude qui permet de fixer un seuil contrôlant la fréquence des erreurs. Cette approche est agnostique du modèle de ML sous-jacent et ne suppose que l’échangeabilité des données. Enfin, elle fournit une quantification de l’incertitude assortie d’une garantie de couverture marginale. Toutefois, sous sa forme standard, la prédiction conformelle ne tient pas compte du caractère plus ou moins atypique de chaque étudiant. Notre approche enrichit donc le score d’incertitude par un signal d'atypicité issu du transport optimal : nous construisons un barycentre de Wasserstein de plusieurs cohortes et mesurons, via une divergence de Sinkhorn, à quel point chaque profil s'écarte de cette géométrie de référence. Ce terme d’atypicité est ensuite combiné au score prédictif de base et calibré une seule fois, sans recourir à des groupes prédéfinis ni à un partitionnement de type Mondrian. Sur quatre jeux de données publics (OULAD, Inde, UFSM Brésil, UCI Portugal), notre méthode conserve la couverture nominale, réduit les disparités de couverture entre cohortes et réserve les ensembles de prédiction les plus larges aux étudiants les plus atypiques, tout en maintenant une ambiguïté moyenne compétitive. Nous discutons enfin comment ces prédictions "incertaines mais contrôlées" peuvent aider à prioriser les interventions pédagogiques et à allouer plus équitablement les ressources d’accompagnement.