1. Introduction. Définitions et concepts de base des données massives (big data). Survol du contenu. Défis et opportunités pour le big data. Configuration d’un environnement de travail pour les données massives. (4h)
2. Collection, nettoyage, intégration et entreposage de données massives. (3h)
3. Systèmes distribués de stockage et d’analyse en lot. L’écosystème Hadoop (SQOOP, Flume, HDFS, HBASE, HIVE, PIG, etc.). (3h)
4. Révision des principaux algorithmes d’apprentissage machine pour classification, régression et règles d’associations. (3h)
5. Resilient Distributed Datasets (RDDs). Le cadriciel Apache Spark pour data analytique (SQL, Streaming, Mllib, GraphX). (4h)
6. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. (3h)
7. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. (6h)
8. Transformations de primitives. Construction de pipelines d’apprentissage machine. (4h)
9. Évaluation des modèles et réglage des hyper paramètres. (3h)
10. Intégration avec des bibliotèques d'apprentissage machine. (3h)
11. Apprentissage machine pour les flux de données. Spark Streaming. (3h)
L'ordre et le contenu peut être modifié en cours de session en fonction de circonstances particulières. Ces heures sont des heures approximatives d’enseignement pour chaque sujet.