L’essentiel à savoir sur le Data Mining
Définition de Data Mining
Data Mining encore appelé exploration des données désigne l’analyse des données qui proviennent des sources hétérogènes ou non afin de tirer les informations utiles ou des patterns. Ces informations utiles tirées lors de l’analyse sont appelées des connaissances qui permettent à une entreprise d’augmenter ses chiffres d’affaires ou de mieux connaître le comportement de sa clientèle afin d’établir une stratégie efficace de marketing.
Plusieurs outils existants permettent de mieux faire les tâches de Data Mining. Ces outils sont exposés dans l’un de mes articles qui se trouvent ici.https://jafwin.com/2019/01/14/top-5-des-outils-les-plus-utilises-en-data-mining/
Pourquoi le Data Mining
De nos jours, la disponibilité croissante de quantité énorme de données de support hétérogènes tels ques les données sur les clients, les données du web et les catalogues en ligne fait que ces données sont difficiles ou impossibles à être traitées manuellement ou par les algorithmes classiques. Nous avons un besoin important de traitement en temps réels des données, d’adaptation au haut degré de la concurrence, de personnalisation, de la fidélisation et segmentation de la clientèle.
L’objectif principal n’est pas seulement de stocker une quantité énorme de données dans un DataWarehouse ou un entrepôt de données mais des données sûres et de qualités pour une meilleure prise de décision. La décision dependant de la qualité des données.
Les types de données
Les données sont des faits, des nombres, des images et des textes qui peuvent être traités par un ordinateur. De nos jours, nous avons une production d’une vaste quantité de données. Parmi ces données, Nous avons
- Les données non-structurées;
- Les méta-données;
- Les données structurées ;
- Les données semi-structurées.
Le processus d’extraction de connaissance
1-Comprendre le domaine d’application
Il faut d’abord identifier le but et comprendre exactement pourquoi on veut appliquer ce processus.
2-Sélection d’un ensemble de données
Apres avoir compris le domaine d’application et fixé des objectifs, il faut maintenant sélectionner les données qui vont vous permettre d’avoir les informations utiles pour atteindre ces objectifs.
3-Nettoyage et prétraitement de données
Il faut à ce niveau, éliminer les données inutiles et faire la transformation des données afin de continuer le reste du processus qu’avec les données qui vont vous permettre d’avoir des connaissances de qualités.
4-Choix des tâches de Data Mining
Il faut choisir ici les tâches de Data Mining qui répondent aux objectifs fixés.
5-choix d’un algorithme de Data Mining
Apres avoir choisi les tâches de Data Mining, il faut choisir un algorithme efficace pour exécuter ces tâches afin de trouver les motifs ou patterns potentiels
6-Evaluations et presentations des Patterns
Tous les motifs trouvés ne sont pas forcement utils, il faut faire une evaluation des résultats afin de choisir les bons motifs pour établir le modèle.
7-Utilisation de la connaissance découverte
Il faut utiliser les connaissances découvertes pour mettre en place des models afin de faciliter la prise des decisions.
Quelques tâches de Data Mining
Classification
Elle permet de prédire si une instance de donnée est membre d’un groupe ou d’une classe prédéfinie. Pour faire simple il s’agit d’associer des données à des groupes prédéfinis (apprentissage supervisé).
Clustering
Il est similaire à la classification mais dans ce cas les groupes ne sont pas prédéfinis d’avances. Le but est de segmenter un ensemble de données en groupes ou clusters(apprentissage non supervisé). On peut par exemple trouver avec cette tâche les groupes de films qui sont souvent vus par les mêmes personnes et aussi les groupes de personnes qui regardent les mêmes films.
Régression
La régression est utilisée pour prédire les valeurs absentes d’une variable en se basant sur sa relation avec les autres variables de l’ensemble de données.
Règles d’association
La recherche de règles d’association cherche à découvrir les relations entre deux ou plusieurs attributs. Par exemple une relation découverte dans les données de ventes dans un supermarché pourrait indiquer qu’un client achetant des oignons et des pommes de terre simultanément, serait susceptible d’acheter un hamburger.
Cette information utile peut être utilisée comme base pour prendre des décisions marketing telles que par exemple des promotions pour fidéliser les clients.
Quelques applications de Data Mining
Marketing direct
Il s’agit de mettre en place un modèle qui permet de regrouper les clients qui ont les mêmes caractéristiques afin de planifier une démarche marketing spécifique pour chaque groupe. Cette application du Data Mining permet à une entreprise d’adapter son marketing afin d’être plus efficace et d’éviter les dépenses inutiles.
Analyse croisée
On peut rechercher des associations et co-relations entre les ventes de produits afin de prédire l’achat d’un produit. Si par exemple un client achète un produit et que ce produit est en relation avec un autre produit alors on peut en déduit que le client pourrait être intéressé par le deuxième produit.
Détection de fraude
L’approche est simple, on peut utiliser les données historiques pour construire des modèles de comportement frauduleux puis utiliser les techniques de Data Mining pour retrouver les cas similaires. Cette technique permet de détecter tous cas de fraudes similaires de façon automatique.
Médecine et pharmacie
On peut découvrir selon les symptômes du patient sa maladie. La technique de Data Mining utilisée à cet effet est la classification
(apprentissage supervisé) puisqu’il faut se baser sur les symptômes du patient déjà connus pour faire la prediction.
Une autre application du Data Mining dans le domaine de la médecine est de prédire les pathologies futures de patients en fonction de leurs paramètres historiques personnels
Ce que tu penses tu le deviens, ce que tu ressens tu l’attires, ce que tu imagines tu le crées