L’essentiel à savoir sur le Sous-Apprentissage et Sur-Apprentissage en Data Science
- Posted by Jonas Agbakou
- Categories Data Science, Deep Learning, Le Big Data, Machine Learning
- Date 24 juillet 2022
- Comments 0 comment
Le Sous-Apprentissage et le Sur-Apprentissage sont deux concepts majeurs de l’appren-
tissage automatique. Ces termes définissent la capacité d’un modèle à prédire les données.
Par ailleurs, le Sous-Apprentissage et le Sur-Apprentissage sont les causes principales des
mauvaises performances des modèles prédictifs générés par les algorithmes d’apprentissage
automatique. Dans cet article, je vous explique l’éssentiel à savoir sur le Sous-Apprentissage et le Sur-Apprentissage.
Sous-Apprentissage
Un modèle peut générer des prédictions précises avec des données d’apprentissages et
s’adapte mal aux données de tests. Ainsi, le modèle ne se généralisera pas bien sur des nou-
velles données, c’est-à-dire les données qu’il n’a pas encore vu parce qu’il est incapable de
capturer les modèles complexes dans les données. Par conséquent, le modèle ne produira pas
de résultats précis et ne sera d’aucune utilité. Afin d’éviter ce problème, la meilleure stratégie
consiste à augmenter la complexité du modèle en augmentant le nombre de paramètres du modèle d’apprentissage. La technique de la validation croisée est aussi une bonne solution pour obtenir un modèle qui possède un bon compromis entre le biais et la variance.
Sur-Apprentissage
Le Sur-Apprentissage est simplement l’opposé du Sous-Apprentissage. Cela signifie qu’en
plus d’apprendre les données et d’extraire le modèle, le modèle apprend plus que sa capacité.
Cette condition indique que les données vont capter du bruit, ce qui conduit au problème de
généralisation du modèle pour les nouvelles données. Le bruit est constitué de données non
pertinentes qui affectent la sortie de la prédiction lors de la rencontre de nouvelles données. En d’autres termes, ce type de modèle conduit à de mauvaises performances car, trop complexe, il manque de capacité de généralisation. La régularisation est couramment utilisée pour limiter le « Sur-Apprentissage » et permettant ainsi de contrôler l’erreur de type variance pour aboutir à de meilleures performances.
Partagez l'article à vos réseaux: on Twitter on Facebook on LinkedIn
Je suis Jonas, un spécialiste passionné du Business Intelligence.
Je fais parler la donnée pour susciter des actions générant de la valeur pour le Business.
Je t'accompagne dans ton voyage vers l'excellence en Business Intelligence, en te transformant d'aspirant ou de débutant en expert BI.