Le Top 6 des commandes SQL les plus utilisées en DATA SCIENCE
- Posted by Jonas Agbakou
- Categories Business Intelligence, Data Science, Le Big Data
- Date 1 octobre 2023
- Comments 0 comment
Le langage SQL est aujourd’hui le langage le plus utilisé lorsqu’il s’agit de parler avec la Data.
Que tu sois un Analyste/Développeur BI, Data Engineer, Analyste des données ou Data Scientist, c’est un MUST pour toi de bien maîtriser le SQL.
Peux-tu être épanoui dans un pays sans savoir parler la langue du pays?
Il faudra te poser la même question pour la langue de la DATA.
Si la réponse est NON, alors ça te serait difficile de réussir brillamment une carrière en DATA sans savoir parler la langue de la DATA.
Cela voudrait dire qu’il est important pour tout professionnel de la DATA de bien connaître le SQL.
La problématique Business est la plus importante
Le plus important en Data Science n’est pas de connaître toutes les requêtes SQL ou de savoir écrire des requêtes SQL complexes.
Mais c’est de savoir utiliser tes compétences SQL pour resoudre des problématiques concrètes du Business.
Cela dit, avant de commencer par écrire une requête SQL, il est primordial d’identifier la problématique business que tu veux resoudre.
L’essentiel du SQL pour la DATA SCIENCE
Pour parler avec la DATA ou pour faire parler la DATA, tu n’as pas besoin de connaître toutes les commandes SQL qui existent mais il est important de bien maitriser les plus utilisées.
Je ne peux pas te le cacher, pour résoudre certaines problématiques du Business, j’écris parfois des requêtes SQL très complexes. Cependant, j’utilise certaines commandes SQL très fréquemment.
Mon but est de te révéler dans cet article les types de commandes SQL que j’utilise fréquemment en Entreprise.
Sans faire un long discourt, le type de requête SQL que tu vas plus utiliser pour faire de la Data Science en Entreprise est le SELECT.
Parfois, tu peux être amené à insérer des données (INSERT), créer des tables (CREATE), modifier des données et des champs (UPDATE) mais ces tâches ne sont pas très fréquentes. Je vais donc me focaliser sur le type de requête le plus utilisée, qui est le SELECT.
Le Top 6 des commandes SQL les plus utilisées en DATA SCIENCE
1. ALIAS
En SQL, alias est utilisé afin de renommer temporairement une colonne ou une table dans une requête SQL.
Cela facilite la lisibilité des requêtes SQL. Il est conseillé d’utiliser des ALIAS surtout lorsqu’il s’agit des requêtes complexes. En SQL, on utilise le mot clé ‘AS‘ pour créer une ALIAS.
Voici un exemple d’utilisation de la commande AS :
Pour renommer une colonne :
SELECT numero_order AS num_order
FROM Orders
Et pour renommer une table :
SELECT numero_order AS num_order
FROM Orders AS od
2. GROUP BY
En SQL, la commande GROUP BY est utilisée pour grouper les données par une ou plusieurs colonnes. Il est important de noter que la commande GROUP BY est utilisée conjointement avec les fonctions d’agrégations telles que MIN(), MAX(), SUM(), AVG(), COUNT() etc.
Voici un exemple d’utilisation de la commande GROUP BY :
SELECT COUNT(*)
FROM Orders
GROUP BY nom_ ville
Parfois, tu vas vouloir restreindre les résultats obtenus, et dans une telle situation, il sera requis d’associer la clause HAVING avec le GROUP BY et non WHERE.
Voici un exemple d’utilisation de la commande HAVING :
SELECT COUNT(*)
FROM Orders
GROUP BY nom_ ville
HAVING nom_ville = ‘Montreal’
3. ORDER BY (ASC ou DESC)
Le ORDER BY est utilisé pour trier l’ensemble de résultats par ordre croissant ou décroissant. Par défaut, il faudra noter que le ORDER BY trie les enregistrements par ordre croissant. Pour trier les enregistrements par ordre décroissant, il faut utiliser le mot-clé DESC.
Voici un exemple d’utilisation de la commande ORDER BY :
SELECT numero_order, numero_customer
FROM Orders
ORDER BY numero_Order ASC
4. Les Jointures en SQL
Les Jointures SQL sont très importantes en DATA SCIENCE
En Data Science, la tâche que tu vas plus faire serait d’extraire des données de différentes sources, les transformer afin d’extraire des connaissances exploitables pour la prise de décision.
Ces données que tu as besoin proviennent souvent de différentes tables d’une même base de données ou des tables de différentes base de données.
Ton rôle serait d’extraire ces données de ces différentes tables et de les faire parler afin de les fournir pour la prise de décision.
Je sous-entends par faire parler les données par le fait de les transformer, calculer les KPIs actionnables et de bien les présenter afin de susciter des actions.
Il est important de noter que les données ne parlent pas seules, c’est toi qui fait parler les données.
Pour extraire les données de différentes tables, les types de commandes les plus utilisées sont de types Jointures.
Les 3 types de jointures SQL les plus utilisés en DATA SCIENCE
LEFT JOIN
Le LEFT JOIN retourne tous les enregistrements de la table A (Gauche) et les enregistrements de la table B (Droite) qui matchent avec la table A (Gauche).
Lorsqu’un enregistrement de la table B (Droite) ne match pas avec l’un des enregistrements de la table A (Gauche), les colonnes de la table B sont remplies par des valeurs NULL.
Voici un exemple d’utilisation de la commande LEFT JOIN :
SELECT numero_order
FROM Orders
LEFT JOIN Customers
ON Orders.numero_order = Customers.numero_order
RIHGT JOIN
Le RIGHT JOIN retourne tous les enregistrements de la table B (Droite ) et les enregistrements de la table A (Gauche) qui matchent avec la table B (Droite).
Lorsqu’un enregistrement de la table A (Gauche) ne match pas avec l’un des enregistrements de la table B (Droite ), les colonnes de la table A sont remplies par des valeurs NULL.
Voici un exemple d’utilisation de la commande RIGHT JOIN :
SELECT numero_order
FROM Orders
RIGHT JOIN Customers
ON Orders.numero_order = Customers.numero_order
INNER JOIN
Le INNER JOIN retourne uniquement les enregistrements de la table B (Droite ) et les enregistrements de la table A (Gauche) qui matchent. Donc, ce type de jointure permet d’extraire les données que les deux tables ont de commun.
Voici un exemple d’utilisation de la commande INNER JOIN :
SELECT numero_order
FROM Orders
INNER JOIN Customers
ON Orders.numero_order = Customers.numero_order
5 . Les fonctions SQL les importantes utilisées en DATA SCIENCE
En SQL, les fonctions sont utilisées pour faire un traitement spécifique ou pour calculer des KPIs.
Cela étant dit, que tu vas plus les utiliser pour des tâches de transformations des données et du calcul des KPIs (Statistiques).
Je te confirme qu’il y a une panoplie de fonction en SQL, on s’entend que je te présente l’essentiel. C’est-à-dire, les plus fréquemment utilisées.
AVG()
La fonction AVG() permet de calculer la valeur moyenne des enregistrement d’une colonne spécifique.
Voici un exemple d’utilisation de la fonction AVG() :
SELECT AVG(price_order)
FROM Orders
WHERE numero_client = 1
SUM()
La fonction SUM() permet de calculer la somme des enregistrements d’un champ spécifique.
Voici un exemple d’utilisation de la fonction SUM() en SQL :
SELECT SUM(price_order)
FROM Orders
WHERE numero_client = 1
COUNT()
La fonction COUNT(*) permet de compter le nombre d’enregistrements.
Il est aussi possible de connaitre le nombre d’enregistrements pour une colonne particulière. Dans ce cas, les enregistrements qui possèdent la valeur null pour la colonne ne seront pas comptabilisés.
Voici un exemple d’utilisation de la fonction COUNT() :
SELECT COUNT(numero_order)
FROM Orders
MIN()
La fonction MIN() permet de savoir la valeur minimale des enregistrements d’un champ spécifique.
Voici un exemple d’utilisation de la fonction MIN() :
SELECT MIN(price_order)
FROM Orders
MAX()
La fonction MAX() permet de savoir la valeur maximale des enregistrements d’un champ spécifique.
Voici un exemple d’utilisation de la fonction MAX() en SQL :
SELECT MAX(price_order)
FROM Orders
6. La clause WHERE LIKE, BETWEEN, IN, ANY, EXISTS, ALL, AND, OR, NOT
La clause WHERE permet de faire un filtre, d’extraire des données en respectant certains critères.
La clause WHERE est donc très utilisée en DATA SCIENCE.
Elle est souvent utilisée en accompagne avec les mots clés suivants : =, >=,<=,<,>,LIKE, BETWEEN, IN, NOT IN ANY, EXISTS, ALL, AND, OR, NOT pour faire des filtres qui répondent à des besoins spécifiques.
Voici un exemple d’utilisation de la CLAUSE WHERE en SQL :
SELECT price_order
FROM Orders
WHERE numero_client IN (1,2,3).
Si tu souhaites en discuter davantage, n’hésite pas à me contacter sur LinkedIn 😊 en cliquant sur mon nom : Jonas Agbakou.
Partagez l'article à vos réseaux: on Twitter on Facebook on Google+ on LinkedIn
Je suis Jonas, un spécialiste passionné du Business Intelligence.
Je fais parler la donnée pour susciter des actions générant de la valeur pour le Business.
Je t'accompagne dans ton voyage vers l'excellence en Business Intelligence, en te transformant d'aspirant ou de débutant en expert BI.