Dernière mise à jour : 08/07/2025
Module 1 : Comprendre le BIG Data
• Introduction (Jeu : Donnez un titre aux images)
• De la donnée au Big Data (l'histoire de Google qui compare un grain de riz à un octet)
• Quelles avancées technologiques ont permis l'avènement du Big Data
• Quelles évolutions comportementales ont accéléré l'avènement du Big Data
• Les définitions du Big Data
• Les 5V du Big Data
• Quelles sont les sources de données ?
Module 2 : Connaissance du métier de l'architecte Big Data
• A la découverte du métier d'architecte Big Data
• Compétences et qualités requises
• Missions et responsabilités de l'architecte Big Data
Module 3 : Les questions clés que l'architecte Big Data doit se poser
• Limites des architectures classiques
• La nouvelle architecture big data et son impact sur le SI
• Quel est le cycle de vie de la donnée ? Par quelles transformations passe-t-elle ? Comment la gouverner ?
• Quelles sont les principaux modèles d'architecture d'un SI Big Data ? C'est quoi le “Data Lake” ?
• Le data Lake : une nouvelle philosophie pour le stockage et le traitement de la donnée
• Les avantages du data Lake et centralisation des données
• Comment dimensionner l'infrastructure et mesurer la scalabilité du système ?
• C'est quoi le cycle de vie d'un projet Big Data ?
• Cas d'usage, mise en situation
Module 4 : Le Cadre juridique des données et la CNIL
• Comprendre le champ d'application, les règles et les sanctions concernant la protection des données personnelles
• Les obligations légales des entreprises (anonymisation, droit à l'oubli)
• Comment concilier Big Data et réglementation CNIL ?
• Le nouveau règlement européen sur la protection des données personnelle applicable à partir du 25 mai 2018
• Cas d'usage / succès stories / retours d'expérience par secteurs et métiers
Module 5 : Les bases de données NOSQL
• L'origine du NOSQL
• Définition du NOSQL
• ACID ( SQL ) vs CAP ( Big Data )
• Les différentes Bases de données NoSQL ( Clé, Valeur, Clé colonne, Orientée document, Base graphe )
• Classification des bases de données NoSQL selon leurs types et leurs cas d'usages
• Zoom sur HBase, Cassandra et MongoDB
Module 6 : Formats de données
• CSV
• XML
• Json
• Avro
• Parquet
• RestFull et les API
• Couche Confluent Kafka
Module 7 : Panorama des outils Big Data
• Quand utiliser Hadoop ?
• Le paradigme MapReduce.
• Le système de gestion des fichiers distribués HDFS
• Echange de données via Sqoop, Flume, Kafka
• Analyse des données avec Pig et Hive
• Ordonnanceur Hadoop : Oozie
• Moteur de recherche : Solr, ElasticSearch
• Spark : framework de calcul distribué in memory
• La place des ETL & ELT dans le big data ainsi que leurs avantages.
• Zoom sur les ETL Informatica, Talend, ODI
Module 8 : Types d'architectures big data selon les exigences temporelles
• Architectures Batch
• Architectures Streaming
• Lambda Architectures
• Architecture réactive
• Quelques exemples d'architectures (google, LinkedIn, Netflix…)
• Les infrastructures dans l'air du temps
– Nutanix
– BDA
– Gammes de serveurs chez HP, DELL,…
– Le cloud (Amazon EMC, Microsoft azure, OVH)
• Les distributions (Cloudera, Hortonworks)
Module 9 : NIFI dataflow
• Pourquoi nous besoin d'accélérer la collecte de big data et de la gestion des flux de données
• Qu'est-ce que NIFI DataFlow ?
• Avantages de NIFI DataFlow
• Fonctionnalités de NIFI DataFlow
• Applications courantes de NIFI DataFlow
• Accélération de la collecte de big data et de la gestion des flux de données
• Démonstration
Module 10 : La sécurité et la gouvernance de données
• Dix signes d'alerte dont vous avez besoin pour mieux gérer la gouvernance et la sécurité des données
• Que faire si vous identifiez ces signes d'avertissement
• La sécurité et le contrôle d'accès Kerberos & Knox
• Atlas et Ranger pour la sécurité et la gouvernance
Module 11 : Les éléments indispensables dans un projet Big data
• Comment passer d'un POC à un cas d'usage industriel, les éléments à prendre en compte et les erreurs à ne pas faire.
• Comment passer les cas d'usage en production et MCO ( Maintien en conditions opérationnelles )
• L'intérêt de la mise en place du DévOps et l'intégration continue dans les projets Big data
• Panorama sur les outils DévOps ( Gitlab, Ansible, Jenkins..)
Module 12 : Conclusion
• Quelques livres
• Vos impressions
• Et après ?
Durant cette formation, les participants découvriront le métier d'architecte Big Data, ses responsabilités, ses missions, les compétences et les qualités requises pour devenir Architecte Big Data.
Les profils visés :
Architectes SI,
Développeurs Big Data,
Chefs de projets,
BA.
Salle de formation équipée :
- un poste informatique par apprenant
- un bloc-notes + stylo
- un support de cours
- un espace de partage en ligne
- un vidéoprojecteur
- un tableau blanc
- connexion Internet
Questionnaire en ligne permettant l'évaluation des pré-requis.
Questionnaire de satisfaction de fin de stage.