

Après avoir entraîné un modèle de machine learning sur des données étiquetées,
celui-ci est supposé fonctionner sur de nouvelles données. Toutefois, il est important de s’as-
surer de l’exactitude des prédictions du modèle en production. Pour ce faire, il est nécessaire
de valider le modèle.
Afin de valider les performances d’un modèle de machine learning, il est nécessaire de le tester sur de nouvelles données. En fonction des performances des modèles sur des données inconnues, on peut déterminer s’il est sous-ajusté, sur-ajusté, ou ”
bien généralisé “.
En machine learning, il existe plusieurs techniques de validation dont les deux principales sont la validation croisée et la validation non-croisée également connue sous l’expression anglaise holdout
method.
Pour ce qui est de la validation non-croisée, elle consiste à diviser l’ensemble de données
aléatoirement en deux sous-ensembles disjoints : un ensemble de données d’apprentissage
(généralement supérieur à 60) et un ensemble de données de test correspondant à la portion
restante. Le modèle est entraîné avec l’ensemble de données d’apprentissage et puis il est
validé sur sa performance avec l’ensemble de données de test.
La validation croisée consiste à diviser aléatoirement l’ensemble de données en k plis
(fold) égaux de données ayant une représentation similaire des classes. Ensuite, le modèle est
entraîné avec k-1 plis et puis validé avec le pli restant. Ce processus est répété jusqu’à ce
que tous les plis ont été utilisés comme données de validation. Le classifieur est validé sur la
performance moyenne des modèles des diverses itérations.
Partagez l'article à vos réseaux: on Twitter on Facebook on Google+ on LinkedIn
Je suis Jonas, un spécialiste passionné du Business Intelligence.
Je fais parler la donnée pour susciter des actions générant de la valeur pour le Business.
Je t'accompagne dans ton voyage vers l'excellence en Business Intelligence, en te transformant d'aspirant ou de débutant en expert BI.
Previous post