Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 01:25

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Apprentissage automatique supervisé et évaluation de performance

Maîtrisez l'évaluation de l'apprentissage automatique supervisé avec la validation croisée, le rééchantillonnage imbriqué et les techniques de sélection de modèles pour construire des modèles prédictifs robustes et généralisables en toute confiance.
EIT Digital via Coursera

EIT Digital

2865 Cours


4 hours

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

This course is designed for data scientists, machine learning practitioners, and graduate students who want to understand how to evaluate and select models reliably in real-world applications. It is particularly relevant for learners working with predictive models who need to ensure their results generalise beyond the training data.

You’ll learn the statistical foundations behind performance estimation and gain hands-on experience with essential techniques such as cross-validation, model selection, and nested resampling. By the end of the course, you’ll be equipped to design robust evaluation workflows and make confident, evidence-based modeling decisions.

Programme

  • Évaluation des performances sur les données
  • Dans le premier module, les concepts de base de l'évaluation des performances prédictives des systèmes basés sur l'intelligence artificielle sur un échantillon de données sont décrits. Il est expliqué de manière intuitive pourquoi et dans quelles conditions l'évaluation des performances sur un échantillon peut être attendue de fonctionner en premier lieu. Premièrement, l'hypothèse fondamentale selon laquelle l'échantillon est indépendant et identiquement distribué est présentée. Étant donné cette hypothèse, il est décrit comment l'estimation des performances sur l'échantillon converge vers la véritable performance en fonction de la taille de l'échantillon, un phénomène connu sous le nom de loi des grands nombres. Enfin, il est brièvement démontré comment la vitesse de la convergence susmentionnée dépend des propriétés de la distribution des données et dans quels cas cela peut devenir impraticablement lent ou même ne pas se produire du tout.
  • Notions de base de l'apprentissage machine supervisé
  • Dans ce module, une interprétation des méthodes d'apprentissage supervisé simplement comme des mappages abstraits d'un échantillon de données à une hypothèse prédictive est présentée. Comme cas particulier important qui couvre une portion étonnamment grande d'algorithmes d'apprentissage, nous considérons les méthodes qui sélectionnent une hypothèse optimale basée sur une mesure donnée de l'adéquation des hypothèses à un échantillon de données. La mesure peut être simplement une mesure directe de la performance prédictive d'une hypothèse sur l'échantillon, telle que l'exactitude de la classification ou l'erreur de régression. Cependant, elle peut également être quelque chose de plus compliqué et apparemment plus éloigné de l'objectif d'apprentissage, comme une fonction mesurant la distance des partitions de Voronoi par rapport aux points d'échantillonnage, comme c'est le cas avec les méthodes des k plus proches voisins que nous considérons comme exemples. De plus, la méthode de sélection de modèle basée sur le ré-échantillonnage et la validation croisée, considérée dans le troisième module, est également un exemple de ce cadre. Le concept de loi des grands nombres est revisité et les conditions dites de différences bornées sous lesquelles elle s'applique pour des mesures de performance arbitraires sur un échantillon de données sont examinées.
  • Évaluation des performances avec la validation croisée
  • Dans ce module, les techniques de ré-échantillonnage pour l'évaluation des performances, telles que le partage de l'échantillon en parties d'ensemble d'entraînement et de test ainsi que sa variation moyennée connue sous le nom de validation croisée, sont examinées. De plus, la méthode de sélection de modèle, y compris la sélection des valeurs d'hyperparamètres, des sous-ensembles de caractéristiques ou des algorithmes d'apprentissage, basée sur les approches de ré-échantillonnage est considérée. Il est observé que ce type de sélection de modèle est en soi un algorithme d'apprentissage au même titre que les méthodes sélectionnant l'hypothèse optimale selon une certaine mesure de performance considérée dans le deuxième module, la mesure de performance dans ce cas étant la méthode de ré-échantillonnage. En conséquence, pour mesurer la performance prédictive attendue des hypothèses obtenues par ce type de sélecteur de modèle, il faut utiliser des techniques de ré-échantillonnage sur le sélecteur de modèle lui-même, ce qui entraîne des méthodes de ré-échantillonnage imbriquées qui incluent le partage de l'échantillon en parties d'entraînement, de validation et de test ainsi que la validation croisée imbriquée.

Enseigné par

Jonne Pohjankukka and Asja Kamenica


Matières

Business