Description de la formation
Développeur Big Data Hadoop et Spark
Apprentissage en ligne
Comprend un cours GRATUIT - Apache Kafka et Core Java
Avec ce cours Big Data Hadoop, vous apprendrez le cadre de travail Big Data avec Hadoop et Spark, y compris HDFS, YARN et MapReduce. Le cours couvrira également Pig, Hive et Impala pour traiter et analyser de grands ensembles de données stockés dans HDFS et utiliser Sqoop et Flume pour l'ingestion de données.
Vous apprendrez le traitement des données en temps réel avec Spark, y compris la programmation fonctionnelle dans Spark, la mise en œuvre des applications Spark, la compréhension du traitement parallèle dans Spark et l'utilisation des techniques d'optimisation Spark RDD. Vous apprendrez également les différents algorithmes interactifs de Spark et utiliserez Spark SQL pour créer, transformer et interroger des formulaires de données.
Enfin, vous devrez entreprendre des projets industriels réels avec CloudLab dans les domaines de la banque, des télécommunications, des médias sociaux, de l'assurance et du commerce électronique.
QU'EST-CE QUI EST INCLUS ?
- 74 heures d'apprentissage mixte
- o 22 heures d'apprentissage en ligne
- ou
- o 52 heures de formation en ligne avec instructeur
- Un an/12 mois d'accès à la plateforme d'apprentissage en ligne
- Quatre projets basés sur l'industrie à la fin du cours
- Apprentissage interactif avec des laboratoires intégrés
- Le programme est aligné sur l'examen de certification Cloudera CCA175.
- Formation sur les outils clés pour les big data et l'écosystème Hadoop ainsi que Apache Spark.
- Sessions spéciales de mentorat des enseignants avec des experts de l'industrie.
- Cours gratuit inclus - Apache Kafka
- Cours gratuit inclus - Core Java
-
- Accès 24 heures sur 24
Détails et critères de certification :
- Il est essentiel d'avoir suivi au moins 85 % de la formation en ligne à son propre rythme ou d'avoir assisté à une session de formation en direct.
- classe virtuelle
- Avoir obtenu un score d'au moins 75 % à l'évaluation de fin de cours.
- Réussir l'évaluation d'au moins un projet.
Alignement sur la certification :
Notre programme est aligné sur l'examen de certification Cloudera CCA175.
OBJECTIFS DU COURS Vous apprendrez :
A la fin du cours, vous serez capable de comprendre :
- Les différents composants de l'écosystème Hadoop tels que Hadoop 2.7, Yarn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume et Apache Spark.
- Système de fichiers distribués Hadoop (HDFS) et architecture YARN
- MapReduce et ses fonctionnalités et assimilation des concepts avancés de MapReduce
- Différents types de formats de fichiers, schéma Avro, utilisation d'Avro avec Hive, Sqoop et développement de schémas
- Flume, l'architecture de Flume, les sources, les puits, les canaux et les configurations de Flume
- HBase, son architecture et le stockage des données et apprendre la différence entre HBase et RDBMS
- Les ensembles de données de distribution résilientes (RDD) en détail
- Les cas d'utilisation courants de Spark et divers algorithmes interactifs.
Vous serez également en mesure de
- ingérer des données avec Sqoop et Flume
-
- Créer une base de données et des tables dans Hive et Impala, comprendre HBase et utiliser Hive et Impala pour le partitionnement.
- Acquérir une connaissance pratique de Pig et de ses composants
- Faire de la programmation fonctionnelle en Spark et mettre en œuvre et construire des applications Spark
- Acquérir une compréhension approfondie du traitement parallèle dans Spark et des techniques d'optimisation Spark RDD
- Créer, transformer et interroger des cadres de données avec Spark SQL
À qui s'adresse ce cours ?
Les opportunités de carrière dans le Big Data sont en hausse et Hadoop devient rapidement une technologie incontournable dans l'architecture du Big Data. La formation Big Data s'adresse aux informaticiens, aux gestionnaires de données et aux analystes :
- Développeurs et architectes de logiciels
- Les professionnels de l'analyse
- Professionnels seniors de l'informatique
- Professionnels des tests et de l'ordinateur central
- Les professionnels de la gestion des données
- Professionnels de l'intelligence économique
- Chefs de projet
- Scientifiques des données en herbe
- Candidats souhaitant faire carrière dans l'analyse des big data
Contenu du cours
Le cours couvre les sujets suivants :
- Introduction au cours
- Leçon 1 - Introduction aux big data et à l'écosystème Hadoop
- Leçon 2 - HDFS et GARN
- Leçon 3 - MapReduce et Sqoop
- Leçon 4 - Les bases de Hive et Impala
- Leçon 5 - Travailler avec Hive et Impala
- Leçon 6 - Types de formats de données
- Leçon 7 - Concept avancé de Hive et partitionnement des fichiers de données
- Leçon 8 - Apache Flume et HBase
- Leçon 9 - Pig
- Leçon 10 - Les bases d'Apache Spark
- Leçon 11 - RDD dans Spark
- Leçon 12 - Mise en œuvre des applications Spark
- Leçon 13 - Traitement parallèle Spark
- Leçon 14 - Techniques d'optimisation Spark RDD
- Leçon 15 - Algorithme Spark
- Leçon 16 - Spark SQL
Cours GRATUIT - Apache Kafka
Cours gratuit - Core Java
Plan de cours plus détaillé:
Leçon 01 - Introduction au Big Data et à Hadoop
- Introduction au Big Data et à Hadoop
- Introduction au Big Data
- Analyser les Big Data
- Qu'est-ce que le Big Data ?
- Quatre types différents de Big Data
- Étude de cas de la Royal Bank of Scotland
- Défis posés par les systèmes traditionnels
- Systèmes distribués
- Introduction à Hadoop
- Composantes de l'écosystème Hadoop - Première partie
- Les composants de l'écosystème Hadoop - Deuxième partie
- Composantes de l'écosystème Hadoop - Troisième partie
- Déploiements commerciaux de Hadoop
- Démonstration : Visite guidée de Simplilearn Cloudlab : Démonstration
- Principales conclusions
- Contrôle des connaissances
Leçon 02 - L'architecture de stockage distribué Hadoop (HDFS) et YARN
- L'architecture de stockage distribué Hadoop (HDFS) et YARN
- Qu'est-ce que HDFS ?
- Le besoin de HDFS
- Système de fichiers classique vs HDFS
- Caractéristiques de HDFS
- Architecture et composants de HDFS
- Mise en œuvre de clusters à haute disponibilité
- Espace de noms des composants HDFS pour les systèmes de fichiers
- Décomposition des blocs de données
- Topologie pour la réplication des données
- Ligne de commande HDFS
- Démonstration : Commandes HDFS courantes
- Projet pratique : Ligne de commande HDFS
- Introduction à Yarn
- Cas d'utilisation de Yarn
- Yarn et son architecture
- Gestionnaire de ressources
- Comment fonctionne le Resource Manager
- Gestionnaire d'applications
- Comment Yarn exécute une application
- Outils pour les développeurs Yarn
- Démonstration : Première partie : Revue du cluster
- Démo : Deuxième partie : Visite guidée du cluster
- Principales conclusions
- Contrôle des connaissances
- Projet pratique : Architecture Hadoop, stockage distribué (HDFS) et Yarn
-
Leçon 03 - Saisie des données dans les systèmes Big Data et ETL
- Saisie des données dans les systèmes Big Data et ETL
- Aperçu de la saisie des données - première partie
- Aperçu de la saisie des données, deuxième partie
- Apache Sqoop
- Sqoop et ses utilisations
- Traitement Sqoop
- Le processus d'importation Sqoop
- Connexions Sqoop
- Démonstration : Importer et exporter des données de MySQL vers HDFS
- Projet pratique : Apache Sqoop
- Apache Flume
- Le modèle Flume
- L'évolutivité de Flume
- Composants de l'architecture Flume
- Configuration des composants de Flume
- Démonstration : ingérer des données Twitter
- Apache Kafka
- Agrégation de l'activité des utilisateurs à l'aide de Kafka
- Modèle de données Kafka
- Partitions
- Architecture d'Apache Kafka
- Démonstration : Configuration du cluster Kafka
- Exemple d'API côté producteur
- Exemples d'API côté consommateur
- Exemple d'API côté consommateur
- Kafka Connect
- Démonstration : Création d'un exemple de pipeline de données Kafka à l'aide d'un producteur et d'un consommateur
- Principales conclusions
- Vérification des connaissances
- Projet pratique : Ingestion de données dans les systèmes Big Data et ETL
Leçon 04 - Traitement distribué MapReduce et Pig
-
- Le cadre de traitement distribué de Mapreduce et Pig
- Traitement distribué dans Mapreduce
- Exemple de comptage de mots
- Les phases d'exécution d'une carte
- Exécution d'une carte dans un environnement distribué à deux nœuds
- Les travaux Mapreduce
- Interaction des tâches Mapreduce dans Hadoop
- Mise en place de l'environnement pour le développement de Mapreduce
- Mise en place des classes
- Création d'un nouveau projet
- Mapreduce avancé
- Types de données dans Hadoop
- Formats de sortie dans Mapreduce
- Utilisation de la mise en cache distribuée
- Joints dans Mapreduce
- Jointures répliquées
- Introduction à Pig
- Composants de Pig
- Modèle de données pour Pig
- Méthodes interactives pour Pig
- Les opérations de Pig
- Différentes relations effectuées par les développeurs
- Démonstration : Analyse de données de blogs à l'aide de Mapreduce
- Démonstration : Analyse de données de ventes et résolution de Kpis à l'aide de Pig
- Projet pratique : Apache Pig
- Démonstration : Wordcount
- Principales conclusions
- Contrôle des connaissances
- Projet pratique : Traitement distribué - Mapreduce Framework et Pig
Leçon 05 - Apache Hive
- Apache Hive
- Hive SQL sur Hadoop Mapreduce
- Architecture Hive
- Interface pour exécuter des requêtes Hive
- Exécution de Beeline à partir de la ligne de commande
- Métastore Hive
- DDL et DML Hive
- Créer une nouvelle table
- Types de données
- Validation des données
- Types de formats de fichiers
- Sérialisation des données
- Tables Hive et schéma Avro
- Optimisation de Hive Partitionnement Bucketing et Sampling
- Table non partitionnée
- Insertion de données
- Partitionnement dynamique dans Hive
- Le partitionnement Hive
- Que font les buckets ?
- Hive Analytics UDF et UDAF
-
- Autres fonctionnalités de Hive
- Démonstration : Analyse en temps réel et filtrage des données
- Démonstration : Problèmes dans le monde réel
- Démonstration : Représentation et importation de données à l'aide de Hive
- Principaux résultats
- Contrôle des connaissances
- Projet pratique : Apache Hive
Leçon 06 - Bases de données NoSQL HBase
- Bases de données NoSQL HBase
- Introduction à NoSQL
- Démonstration : Yarn Tuning
- Vue d'ensemble de Hbase
- Architecture de Hbase
- Modèle de données
- Connexion à HBase
- Projet pratique : HBase Shell
- Principales conclusions
- Contrôle des connaissances
- Projet pratique : Bases de données NoSQL - HBase
Leçon 07 - Les bases de la programmation fonctionnelle et de Scala
- Bases de la programmation fonctionnelle et de Scala
- Introduction à Scala
- Démonstration : Installation de Scala
- Programmation fonctionnelle
- Programmation avec Scala
- Démo : Luminaires de base et programmation arithmétique
- Démonstration : Opérateurs logiques
- Classes d'inférence de type Objets et fonctions en Scala
- Démonstration : Fonctions d'inférence de type Fonctions et classes anonymes
- Collections
- Types de collections
- Démonstration : Cinq types de collections
- Démo : Opérations sur les listes : Démonstration d'opérations sur les listes
- Scala REPL
- Démonstration : Caractéristiques de Scala REPL
- Conclusions principales
- Contrôle des connaissances
- Projet pratique : Apache Hive
Leçon 08 - Apache Spark, la nouvelle génération de Big Data
- Apache Spark, la nouvelle génération de Big Data
- L'histoire de Spark
- Limites de Mapreduce dans Hadoop
- Introduction à Apache Spark
- Composants de Spark
- Application du traitement en mémoire
- L'écosystème Hadoop et Spark
- Avantages de Spark
- Architecture de Spark
- Les clusters Spark dans le monde réel
-
- Démo : Exécuter un programme Scala dans Spark Shell
- Démo : Configurer l'environnement d'exécution dans l'IDE
- Démo : Spark Web UI
- Résultats clés
- Vérification des connaissances
- Projet pratique : Apache Spark Next-Generation Big Data Framework
Leçon 09 - Spark Core Processing RDD
- Introduction à Spark RDD
- RDD dans Spark
- Création de Spark RDD
- Appariement de RDD
- Opérations RDD
- Démo : Spark Transformation Exploration détaillée à l'aide d'exemples en Scala
- Démonstration : Spark Action Exploration détaillée à l'aide d'exemples en Scala
- Mise en cache et persistance
- Niveaux de stockage
- Lignage et DAG
- Le besoin de DAG
- Débogage dans Spark
- Le partitionnement dans Spark
- L'ordonnancement dans Spark
- Le mélange dans Spark
- Le tri blending
- Agrégation de données avec des RDD appariés
- Démonstration : Application Spark avec des données écrites dans HDFS et Spark UI
- Démonstration : Modification des paramètres de l'application Spark
- Démo : Gestion de différents formats de fichiers
- Démo : Spark RDD avec une application réelle
- Démo : Optimiser les jobs Spark
- Conclusions principales
- Vérification des connaissances
- Projet de pratique : Spark Core Processing RDD
Leçon 10 - Traitement SQL Spark des cadres de données
- Traitement des dataframes par Spark SQL
- Introduction à Spark SQL
- Architecture de Spark SQL
- Trames de données
- Démonstration : Traitement de différents formats de données
- Démonstration : Implémentation de différentes opérations sur les dataframes
- Démonstration : UDF et UDAF
- Collaboration avec les RDD
- Démonstration : Traitement des grilles de données à l'aide d'une requête SQL
- RDD vs Dataframe vs Dataset
- Projet pratique : Traitement des dataframes
- Conclusions principales
- Vérification des connaissances
- Projet pratique : Spark SQL - Traitement des grilles de données
-
- Spark Mlib Modéliser les Big Data avec Spark
- Le rôle des data scientists et des data analysts dans le Big Data
- Analyses avec Spark
- Apprentissage automatique
- Apprentissage supervisé
- Démonstration : Classification d'un SVM linéaire
- Démo : Régression linéaire avec des études de cas réels
- Apprentissage non supervisé
- Démonstration : Clustering non supervisé : K-means
- Apprentissage par renforcement
- Apprentissage semi-supervisé
- Vue d'ensemble de la Mlib
- Pipelines Mlib
- Principales conclusions
- Vérification des connaissances
- Projet pratique : Spark Mlib - Modélisation de Big Data avec Spark
Leçon 11 - Spark MLib Modélisation de BigData avec Spark
Conditions préalables
Il n'y a pas de prérequis pour ce cours. Cependant, il est utile d'avoir des connaissances en Java et en SQL. Nous offrons un cours en ligne gratuit « Java essentials for Hadoop » si vous avez besoin de renforcer vos compétences en Java.
Prochaines sessions
Faire une demande
Apprenez à faire la différence Adding Value Consulting (AVC) est un ATO (organisme de formation accrédité) leader. Nous avons introduit un grand nombre de méthodes de « meilleures pratiques » en Scandinavie. Nous sommes experts en formation et certification. Au fil des...
Apprenez-en plus sur l'organisme et découvrez toutes leurs formations