Formation Pig : Développement de scripts avec Apache Pig

25 Heures

Formation Pig : Développement de scripts avec Apache Pig

Objectifs de la formation Pig

Intégré à la suite Hadoop, Pig est une plate-forme de haut niveau permettant la programmation parallèle de tâches MapReduce tournant dans un cluster Hadoop. Utilisé le plus souvent pour charger des données via des fichiers HDFS ou pour gérer des échanges de données entre des applications tierces, Pig pour le big data comprend deux éléments-clé : un compilateur et un langage de script nommé Pig Latin.

À l’issue de cette formation, vous serez en mesure de :

  • Comprendre le fonctionnement de Pig
  • Développer des requêtes en avec Pig Latin pour effectuer des transformations sur les données et des analyses de données
  • Intégrer des données de différents formats

À qui s’adresse cette formation ?

Public :

Cette formation Pig pour le développement de scripts s’adresse aux chefs de projet, aux data scientists et aux développeurs souhaitant utiliser Pig pour l’analyse de données.

Prérequis :

Des connaissances en langage Java ou Python, des bases Hadoop et des notions de calculs statistiques sont nécessaires pour suivre ce cours. 

Contenu du cours Pig

Introduction à Apache Pig

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l’écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l’approche Hive ou Spark

Mise en œuvre de Pig

  • Rappels sur les commandes HDFS
  • Prérequis techniques, configuration de Pig

Travaux pratiques

  • Exécution : les différents modes : interactif ou batch
  • Principe de l’exécution de scripts Pig Latin avec Grunt

Base Pig Latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de bases : LOAD, FOREACH, FILTER, STORE

Travaux pratiques

  • Création d’un ETL de base
  • Contrôle d’exécution

Transformation des données via des opérations de filtre avec Pig Latin

  • Groupements, jointures, tris, produits cartésiens
  • Transformation de base de la donnée
  • Découpages
  • Découpages sur filtres

Analyse de la donnée

  • Echantillonages
  • Filtres
  • Rangements avec rank et dense
  • Calculs : min/max, sommes, moyennes…

Travaux pratiques

  • Traitements de chaînes de caractères
  • Traitement de dates

Intégration

  • Formats d’entrées/sorties
  • Interfaçage avro, json

Travaux pratiques

  • Chargement de données depuis HDFS vers HBase
  • Analyse de données Pig/Hbase
  • Restitution Json

Extensions du Pig Latin

  • Extension du Pig Latin
  • Création de fonctions UDF en Java
  • Intégration dans les scripts Pig

Travaux pratiques

  • Utilisation de Pig Latin depuis des programmes Python
  • Execution de programmes externes, streaming
Réf:

005

Tarif:

600 Dt

Niveau:

Fondamental

Niveau:

Avancé

Classe à distance:

Possible

Pin It on Pinterest