Logo ÉTS
Session
Cours
Responsable(s) Alessandro Lameiras Koerich

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement





Cours

1. Introduction. Définitions et concepts de base des données massives (big data). Survol du contenu. Défis et opportunités pour le big data. Configuration d’un environnement de travail pour les données massives. (4h)

2. Collection, nettoyage, intégration et entreposage de données massives. (3h)

3. Systèmes distribués de stockage et d’analyse en lot. L’écosystème Hadoop (SQOOP, Flume, HDFS, HBASE, HIVE, PIG, etc.). (3h)

4. Révision des principaux algorithmes d’apprentissage machine pour classification, régression et règles d’associations. (3h)

5. Resilient Distributed Datasets (RDDs). Le cadriciel Apache Spark pour data analytique (SQL, Streaming, Mllib, GraphX). (4h)

6. Apprentissage machine avec des données structurées, semi-structurées et non-structurées.(3h)

7. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. (6h).

8. Transformations de primitives. Construction de pipelines d’apprentissage machine. (4h)

9. Évaluation des modèles et réglage des hyper paramètres (3h).

10. Apprentissage machine pour les flux de données. Spark Streaming (3h).

11. Déviation de concept et détection de nouveauté (3h).

Ces heures sont des heures approximatives d’enseignement pour chaque sujet.

 

Laboratoires et travaux pratiques

Les projets dirigés réalisés en classe ou en devoir seront associés aux notions théoriques présentées à chacune des séances. Les projets dirigés proposés sont les suivants :

  • Projet dirigé 1: Analyse de texte et comptage des mots
  • Projet dirigé 2: Analyse de log d'un serveur WEB.
  • Projet dirigé 3 : Prédiction de la puissance de sortie à partir d'un ensemble de lectures environnementales de divers capteurs dans une centrale au gaz naturel.
  • Projet dirigé 4 : Les évaluations des films utilisant filtrage collaboratif.
  • Projet dirigé 5 : Prédiction de clique sur des publicités.
  • Projet dirigé 6 : Modèle de régression linéaire pour prédire l'année de sortie d'une chanson.