Logo ÉTS
Session
Cours
Responsable(s) Alessandro Lameiras Koerich

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement


Préalables

Aucun préalable requis
 


Descriptif du cours

Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Ce cours vous permettra développer vos connaissances en analyse de données massives et améliorerez vos compétences en programmation et en mathématiques. Vous apprendrez à utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.

À la fin de ce cours, les étudiantes et les étudiants devraient être en mesure de : illustrer et expliquer la nature des systèmes d’analyse de données; appliquer les connaissances en apprentissage machine requise pour concevoir tels systèmes; utiliser les outils appropriés pour valider et évaluer la performance de tels systèmes, combiner narration, code et graphiques pour créer des documents analytiques convaincants; aborder les problèmes de la science des données à grande échelle avec créativité et esprit d’initiative.

Les sujets abordés incluent entre autres : introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDD), dataframes et datasets. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyperparamètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.





Objectifs du cours

À la suite de ce cours, l’étudiant sera en mesure :

  • de reconnaître les concepts fondamentaux de la science des données;
  • de reconnaître les défis de l’extensibilité pour les tâches courantes d’apprentissage machine;
  • de comprendre comment utiliser des données brutes pour faire l’apprentissage de modèles statistiques;
  • de concevoir et implémenter des pipelines distribués d’apprentissage machine.  

Introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDDs). Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyper paramètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

L’étudiant doit maîtriser les concepts de base d’apprentissage machine avant de prendre ce cours (ce cours n’en est pas une d’introduction à l’apprentissage machine).


Stratégies pédagogiques

Les objectifs seront atteints par une combinaison de cours magistraux, de lectures individuelles, de discussions, et d’application des concepts vus en classe lors de six (6) projets dirigés en équipe.

La participation active des étudiants et étudiantes est le premier facteur de succès de ce cours.



Utilisation d’appareils électroniques

Les étudiantes/étudiants doivent avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque et être à l’aise avec le système d’exploitation Linux (distribution Ubuntu).



Coordonnées du personnel enseignant le cours

* Double-cliquez sur le champ pour modifier le contenu