1. Introduction. Définitions et concepts de base des données massives (big data). Survol du contenu. Défis et opportunités pour le big data. Configuration d’un environnement de travail pour les données massives. (4h)
2. Collection, nettoyage, intégration et entreposage de données massives. (3h)
3. Systèmes distribués de stockage et d’analyse en lot. L’écosystème Hadoop (SQOOP, Flume, HDFS, HBASE, HIVE, PIG, etc.). (3h)
4. Révision des principaux algorithmes d’apprentissage machine pour classification, régression et règles d’associations. (3h)
5. Resilient Distributed Datasets (RDDs). Le cadriciel Apache Spark pour data analytique (SQL, Streaming, Mllib, GraphX). (4h)
6. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. (3h)
7. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. (6h)
8. Transformations de primitives. Construction de pipelines d’apprentissage machine. (4h)
9. Évaluation des modèles et réglage des hyper paramètres. (3h)
10. Apprentissage machine pour les flux de données. Spark Streaming. (3h)
11. Déviation de concept et détection de nouveauté. (3h)
Ces heures sont des heures approximatives d’enseignement pour chaque sujet.