Data Scientist

20 Heures

Formation Data Scientist

Objectifs de la formation Data Scientist

Dans l’univers du Big Data, le rôle du data scientist joue est primordial pour valoriser les données. Cette formation Data Scientist de niveau avancé vous apprend les modèles statistiques et les techniques d’analyse des données qui vous aideront à exploiter vos données.

Durant cette formation Data Science vous apprendrez à :

  • Découvrir et utiliser la puissance prédictive des modèles ensemblistes
  • Savoir effectuer un “feature engineering” performant
  • Appréhender les techniques de text-mining et de deep-learning à travers d’exemples concrets
  • Enrichir ses outils de data scientist

Ce cours est animé par des data scientists en activité. Ils vous font bénéficier de leur retour d’expérience de modèles réels mis en place chez leurs clients et de leur expérience des compétitions de Data Science.

À qui s’adresse cette formation ?

Public :

Le cours s’adresse aux data scientists, analystes, statisticiens, architectes et développeurs souhaitant approfondir leurs connaissances sur la Data Science.

Prérequis :

Pour suivre cette formation, il est recommandé d’avoir des connaissances de base en programmation ou en scripting. Il faut également avoir suivi la Formation “Fondamentaux de la Data Science” (OFDS) ou avoir les connaissances équivalentes.

Contenu du cours Data Scientist

Introduction aux APIs ReST

  • Rappel des fondamentaux Data Scientist
  • Ecosystème du Big Data et Data Scientist
  • Comment modéliser un problème de data science ?
  • Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)
  • Les algorithmes classiques
  • Comment évaluer la performance ?
  • Sur apprentissage et compromis biais/variance

Modèles ensemblistes

  • Rappels
  • Pourquoi ça fonctionne ? Raisons théoriques
  • Introduction au stacking
  • Architecture et promesses du stacking
  • Feature weighted stacking

Mise en application

Introduction au text mining

  • Un modèle de représentation : le bag of words
  • Normalisations usuelles
  • Stemming, lemmatization
  • Distances (Levenshtein, Hamming, Jaro-Winkler)
  • Word2Vec

Feature engineering avancé

  • Normalisation
  • Qu’est ce que la normalisation ?
  • Quand l’utiliser ?
  • Réduction de dimension (ACP, TSNE, LSA, etc.)
  • Transformation et interactions entre variables
  • Traitement des variables catégorielles à haute dimensionnalité
  • Création de variables extraites d’arbres (Facebook Trick)

Réseaux de neurones et deep learning

  • L’origine : le perceptron
  • Les réseaux de neurones
  • Deep learning
  • Objectif : s’affranchir du feature engineering manuel
  • Convolution
  • Réseaux récurrent

Cas concret

Reconnaissance de chiffres

Apprentissage semi-supervisé

Rappels et révisions

  • Synthèse des points abordés les deux premiers jours
  • Approfondissement des sujets sélectionnés avec l’intervenant

Mise en pratique

Le dernier jour de ce stage est entièrement consacré à des mises en pratique

Sélection et participation à une compétition

Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants.

Travaux Pratiques

Des travaux pratiques ainsi que des mises en situations concrètes viennent ponctuer cette formation afin de lier théorie à la pratique pour être autonome à l’issue du cours.

Réf:

001

Tarif:

600 Dt

Niveau:

Avancé

Classe à distance:

Possible

Pin It on Pinterest