L’essentiel à savoir pour débuter en machine learning
Motivation
Des quantités énormes de données sont produites chaque jour. La taille sera évaluée à 163 zettabytes en 2025. Ces données sont produites par les réseaux sociaux, les capteurs, les sites e-commerce (Amazon, Alibaba etc) et les transactions bancaires. Elles dépassent les capacités humaines et des outils de traitement traditionnels utilisés. Il faut donc les outils pour extraire automatiquement des connaissances à partie des grandes quantités de données. L’apprentissage automatique a donc une importance capitale à l’ère du Big Data. Le Big Data fait référence à l’utilisation de méthodes d’analyse de données pour extraire de la valeur / des connaissances à partir de données.
Définition
L’apprentissage automatique a pour objectif de développer des algorithmes basés sur l’apprentissage des données pour faire des analyses automatiques en détectant des motifs, des règles d’associations. Ces analyses sont utilisées pour la prédiction afin d’aider les décideurs dans la prise de décision. En effet, le principe consiste à donner à l’ordinateur la capacité d’apprendre à partir de cas et des erreurs pour faire des prédictions sur des données nouvellement observées. Selon [Arthur Samuel, 1959], l’apprentissage automatique est la discipline donnant aux ordinateurs la capacité d’apprendre sans qu’ils soient explicitement programmés.
Les différents types d’apprentissage automatique
Apprentissage supervisé
Dans l’apprentissage supervisé, les données à l’entrée sont « étiquetées ». Chacune de ses données est reliée à une classe. Le but principal de cette méthode est que l’algorithme puisse apprendre en comparant sa sortie réelle avec les sorties enseignées pour trouver des erreurs et modifier le modèle par adaptation. Par exemple, un model peut être entrainé par apprentissage supervisé pour distinguer une transaction bancaire frauduleuse et non frauduleuse.
Apprentissage non supervisé
Dans le cadre de l’apprentissage non supervisé, les données sont non labellisées. L’algorithme trouve tout seul les cas de similarités parmi ses données d’entrée. Ainsi, le but de l’apprentissage non supervisé est de découvrir des modèles cachés, des corrélations, de faire des regroupements dans un ensemble de données, mais il est aussi utilisé pour la réduction de dimension. La réduction de dimension peut aider pour réduire la taille des données en sélectionnant les attributs qui se distinguent mieux pour la classification.
Apprentissage par renforcement
Dans le cadre de l’apprentissage par renforcement, l’agent interagit avec son environnement en effectuant des actions pour recevoir des recompenses. La recompense peut être positive, negative ou nulle. Prenons par exemple, un robot qui joue au jeu de Tetris, quand il gagne il y a une recompense positive, et dans le cas contraire une recompense negative.
Apprentissage semi-supervisé
Cette technique d’apprentissage est une alternative entre l’apprentissage supervisé et non supervisé. Il y a des cas où certaines données sont étiquetées mais pas toutes les données. On peut utiliser l’apprentissage non supervisé pour segmenter une grande quantité de données en deux clusters. On pourra donc labelliser ces données en fonction des caractéristiques de chaque cluster. Une fois les données labelisées, l’apprentissage supervisé servira pour la classification.
Quelques Applications
Domaine médical
On peut faire de la diagnostique médicale, par exemple l’analyse de la forme et de la couleur des cellules pour détecter du cancer. Et aussi les systèmes de detection automatique des symptôme d’une maladie.
Sécurité informatique
Apprentissage automatique peut permettre une detection proactive des spams dans les courriels, de fraude et d’intrusion.
Commerce
Dans le domaine du commerce, on peut utiliser l’apprentissage automatique pour la segmentation des clients, la fidélisation des clients, le marketing et les systèmes de recommandation.
Bancaire
L’apprentissage automatique est utilisé dans ce domaine pour la detection des fraudes bancaires, attribution de credit, la segmentation et la fidélisation des clients.
Ce que tu penses tu le deviens, ce que tu ressens tu l’attires, ce que tu imagines tu le crées