À la suite de ce cours, l’étudiant sera en mesure :
- de reconnaître les concepts fondamentaux de la science des données;
- de reconnaître les défis de l’extensibilité pour les tâches courantes d’apprentissage machine;
- de comprendre comment utiliser des données brutes pour faire l’apprentissage de modèles statistiques;
- de concevoir et implémenter des pipelines distribués d’apprentissage machine.
Introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDDs). Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyper paramètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.
L’étudiant doit maîtriser les concepts de base d’apprentissage machine avant de prendre ce cours (ce cours n’en est pas une d’introduction à l’apprentissage machine).