
Top 9 des conseils des Experts en Data Engineering
- Posted by Jonas Agbakou
- Categories Business Intelligence, Data Science, Le Big Data
- Date 7 juillet 2024
- Comments 0 comment
Le data Engineering est l’un des domaines de la Donnée les plus en demandes dans le marché du travail actuel.
Les professionnels de ce domaine ont l’art de rendre la donnée disponible et d’assurer sa qualité.
C’est un rôle très important car il est essentiel d’avoir des données de qualités pour mener des analyses précises, prendre des décisions éclairées, et favoriser la croissance des entreprises.
Si tu souhaites devenir un expert en Data Engineering, la meilleure manière est de bénéficier des conseils des experts du domaine. Ainsi, tu vas éviter de faire certaines erreurs et progresser très rapidement dans ta carrière.
Dans le but de t’aider dans la réalisation de ton rêve qui est de devenir un Expert en Data Engineering, j’ai sollicité pour toi des conseils des très excellents Data Engineer.
Dans cet article, je présente ces experts et révèle leurs conseils les plus précieux.
Expert 1
Conseil technique
Le Data Engineering est un champ de compétences très large et l’un des plus gros obstacles lorsqu’on veut devenir Data Engineer, c’est qu’il y a beaucoup d’outils à connaitre. Cependant, quelles que soient les technologies utilisées, il y a des éléments immuables intéressants à savoir. Parmi ces techniques, en voici une à garder en tête :
Optimisation des requêtes SQL/Python/etc… : peu importe le langage utilisé, il est important de rester attentif aux techniques d’optimisation des requêtes, telles que le partitionnement ou l’utilisation de jointures adaptées, pour améliorer les performances de l’ETL et de la base de données. Pour cela, il sera essentiel de bien lire le plan d’exécution.
Dernières choses, chaque éditeur (Databricks, Snowflake, AWS, Azure Google Cloud, etc…) a mis en place ses propres techniques (plus ou moins semblables) pour optimiser la lecture/transformation/écriture de la donnée. Tirez-en parti !
Conseil d'apprentissage
Pour ce qui est de l’apprentissage du Data Engineering, le plus important est de pratiquer avec un cas concret. Vous devez prendre le temps de monter un projet de A à Z. Par exemple, prenez un fichier CSV (ou JSON), à partir de la version d’essais de Databricks ou Snowflake, vous pouvez déjà bâtir votre projet de Data Engineering. Practice Makes Perfect !
Expert 2
Conseil technique
Travailler la reproductibilité. Beaucoup de technologie (virtualenv, github actions, docker, terraform, kubernetes) et bonnes pratiques (tests, idempotence, environnement hors prod) tournent autour de la capacité à toit relancer de zéro. Je suis toujours obsédé par la reproductibilité de mes docs ou de mon code avec le minimum de charge mentale pour celui qui va reproduire et je suis convaincu que c’est comme ça qu’on progresse. C’est en particulier le cas pour les guides d’installation d’un environnement de développement en local. Soyez précis dans ce document sur le vocabulaire et dans les commandes pour vous forcer à comprendre.
Conseil d'apprentissage
Choisissez le bon média. Comment choisir entre une ia générative, un livre, une vidéo de live coding, un article, une documentation technique, demander à ses collègues ? C’est le média qui apporte la réponse la plus rapidement et que vous avez choisi. C’est comme ça que je décide entre chatgpt et google. Lorsque j’ai besoin d’apprendre une techno de zéro, je privilégie les livres, même si c’est payant et même si je peux trouver la même chose sur internet. La raison est que je peux les lire le soir en évitant les écrans. Les vidéos de live coding en x2 sont intéressantes car elles permettent de mieux se préparer à se plonger dans la documentation de la techno.
Expert 3
Conseil technique
Le domaine de la data est vaste en outils répondant à des besoins spécifiques.
Utiliser son temps pour en apprendre un maximum n’a pas de sens.
Ce qui est utile est de se concentrer sur l’essence même des projets en Data Engineering : la donnée.
Bien sûr, il faut savoir manipuler cette donnée pour répondre à un besoin, ce que l’on oublie trop souvent. La donnée n’est qu’une information qui nous vient du monde réel pour arriver sur nos ordinateurs.
Ce sont des logiciels, applications qui génèrent celle-ci.
Les concepts
En tant que Data Engineer, notre rôle est de capturer cette information afin de l’acheminer au bon moment au bon endroit sous la bonne forme.
- Pour arriver à remplir ce rôle, il faut comprendre les concepts d’Extract Transform Load (ETL), d’Extract Load Transform (ELT) et de reverse ETL.
Ce sont les concepts qui schématisent les processus de la données. - Avoir de solides connaissances en Data Modeling permettra de prendre des décisions pertinentes sur la bonne forme de la donnée.
- Connaître les différentes architectures de stockage, Data Warehouse, Data Lake, Lake House, stockage objet, OLTP, OLAP, etc. afin de pouvoir choisir le bon endroit.
Les outils
Une fois une connaissance suffisante sur ces concepts, il est temps d’aborder les outils essentiels qui permettrons de les matérialisés.
Comme je le disais au début de cet article, vouloir tout apprendre ne sera pas suffisamment efficace.
- La base dans la manipulation des données est SQL. Il permet de répondre à la plupart des besoins en entreprise.
- Il ne faut pas non plus oublier le moyen d’industrialiser tous les traitements. Python répond également à beaucoup de ces besoins tout en ayant une montée en compétences rapide.
- Ces automatisations tournent sur des ordinateurs, et il est parfois nécessaires d’y accéder plus ou moins directement afin de les préparer, les configurer. Le Bash est un des moyens d’être en proximité avec le système d’exploitation.
- Tout ce travail qui se passe au sein d’une organisation, nous amène souvent à travailler en équipe. Afin de s’organiser, de suivre les évolutions des traitements sur les données et surtout de pouvoir tester ce que l’on fait il est important d’utiliser Git avec la mise en place d’une CI/CD (une fois les développements terminés, on teste dans un environnement proche de celui utilisé en production et si ok, on met donc en production).
Les perspectives
Bien sûr, tout au long de la carrière, ce bagage va se développer pour accueillir d’autres concepts et outils : la Data Gouvernance, la Data Quality, les Data Products, les Data Contracts, Apache Spark, DBT, Apache Airflow et j’en passe.
Commencer à se concentrer sur les concepts et outils cités dans cet article vous ouvriront les portes du rôle de Data Engineer.
Conseil d'apprentissage
La veille
Ne pas apprendre tous les outils ne veut pas dire qu’il ne faut pas faire de veille sur l’existant et les nouveautés.
Il est nécessaire d’être conscient de son écosystème.
Les comptes LinkedIn
Cette veille passe par le suivi de compte LinkedIn adéquats :
- Évidemment le mien hein 😅 : Bertrand Fabre
- Celui de Christophe Blefari : Christophe Blefari
- De Florent Jakubowski : Florent Jakubowski
- Mais également celui de Willis Nana : Willis Nana
Faite également vos propre recherches pour trouver la personne qui saura vous transmettre.
Les flux RSS
C’est un super moyen d’agréger des flux d’articles spécialisés au sein d’une même application. Pour ma part, j’utilise Feedly en gratuit et je suis des dizaines de flux spécialisés en data. Impossible de n’en garder que quelques uns.
Communiquer
Le meilleur moyen d’apprendre est de transmettre.
N’hésitez pas à vouloir expliquer à d’autres personnes n’ayant pas les compétences, ce que vous avez retenu, compris.
Vidéos YouTube et podcast
Ces formats de contenus vous permettront de diversifier vos sources et moyens d’apprentissage.
- La chaîne Datayoka partage des astuces en SQL et Python : Datayoka
- Celle de Data From Scratch va encore plus loin dans le domaine de la Data : Data From Scratch – Willis
- DataWatch sur YouTube, Spotify ou Apple Podcast fait une veille en Data Engineering sur des sujets récents : DataWatch (Youtube)| DataWatch (APPLE) | DataWatch (Spotify)
- Big Data Hebdo sur Apple Podcast parle de Data : Big Data Hebdo
- DataGen reçoit des invités expérimentés en Data : DataGen
Lire
La lecture est aussi un bon moyen de découvrir d’autres approche de transmission de connaissances.
Je peux vous conseiller les livres :
- Sortez vos données du frigo de Mick Levy
- Chief Data Officer de Gilbert Ton et Alain Yen-P
De nombreux autres livres francophones existent. A vos recherches !
Le mot de la fin
Il faut savoir s’arrêter même si j’aurai de nombreux autres conseils pour vous 😅 .
On ne peut pas démarrer un rôle de Data Engineer par hasard, il faut un minimum de connaissances et de compétences, que j’ai tenté de vous conseiller.
Néanmoins, son accès n’est pas impénétrable et avec de solides bases vous aurez tout ce qu’il faut pour avancer et vous déplacer sur la route que vous choisirez.
Expert 4
Conseil d'apprentissage
Pour se lancer dans le domaine du data engineering, il existe deux types de compétences : celles génériques que l’on retrouve partout et celles qui dépendent fortement des choix d’outils de l’entreprise.
Pour quelqu’un qui débute dans ce domaine, je conseille de se concentrer sur les compétences du premier type : SQL, Python, Git, et même Terraform. En maîtrisant celles-ci, cela ouvre la porte à de nombreux entretiens.
Maîtriser un cloud (AWS, Azure, GCP) est clairement une compétence qui peut faire la différence aussi. Mais attention à regarder quel outil est le plus utilisé dans votre zone géographique ou secteur cible.
Expert 5
Conseil d'apprentissage
Lorsqu’on parle de data engineering on parle souvent de pipeline de transformation de données.
Mais avant toutes choses il faut maîtriser les bases, telles qu’un langage de programmation (de préférence Python au début), le SQL, Linux, Git, Docker, et savoir comment créer une API dans les grandes lignes, ainsi que comment effectuer des requêtes HTTP.
Peu importe le poste dans le domaine de la data, ces compétences seront toujours utiles. Elles constituent la base fondamentale.
Exemple de projet : construire une API en Python qui retourne des données d’une base de données. Dockeriser l’API, évidemment.
Conseil technique
Pratiquer énormément. Il existe de nombreuses ressources telles que la documentation des outils ou des articles qui expliquent la réalisation de projets. Si vous appréciez les cours en vidéo, vous pouvez explorer la plateforme Udemy où l’on trouve une grande variété de cours sur presque tous les sujets.
Partagez l'article à vos réseaux: on Twitter on Facebook on LinkedIn
Je suis Jonas, un spécialiste passionné du Business Intelligence.
Je fais parler la donnée pour susciter des actions générant de la valeur pour le Business.
Je t'accompagne dans ton voyage vers l'excellence en Business Intelligence, en te transformant d'aspirant ou de débutant en expert BI.