PlanÉTS

Descriptif du cours

Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Ce cours vous permettra développer vos connaissances en analyse de données massives et améliorerez vos compétences en programmation et en mathématiques. Vous apprendrez à utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.

À la fin de ce cours, les étudiantes et les étudiants devraient être en mesure de : illustrer et expliquer la nature des systèmes d’analyse de données; appliquer les connaissances en apprentissage machine requise pour concevoir tels systèmes; utiliser les outils appropriés pour valider et évaluer la performance de tels systèmes, combiner narration, code et graphiques pour créer des documents analytiques convaincants; aborder les problèmes de la science des données à grande échelle avec créativité et esprit d’initiative.

Les sujets abordés incluent entre autres : introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDD), dataframes et datasets. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyperparamètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

Objectifs du cours

À la suite de ce cours, l’étudiant sera en mesure :

de reconnaître les concepts fondamentaux de la science des données;
de reconnaître les défis de l’extensibilité pour les tâches courantes d’apprentissage machine;
de comprendre comment utiliser des données brutes pour faire l’apprentissage de modèles statistiques;
de concevoir et implémenter des pipelines distribués d’apprentissage machine.

Introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDDs). Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyper paramètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

L’étudiant doit maîtriser les concepts de base d’apprentissage machine avant de prendre ce cours (ce cours n’en est pas une d’introduction à l’apprentissage machine).

matricule	Groupe	Nom	Prénom	Activité	Courriel	Bureau	Disponibilité*

150058

01

Lameiras Koerich

Alessandro

Activité de cours

Alessandro.LameirasKoerich@etsmtl.ca

A-4487

* Double-cliquez sur le champ pour modifier le contenu

Préalables

Descriptif du cours

Objectifs du cours

Stratégies pédagogiques

Utilisation d’appareils électroniques

Coordonnées du personnel enseignant le cours