Version PDF

Afficher les cours préalables

Afficher les qualités de l'ingénieur

École de technologie supérieure

Responsable(s) de cours :

Alessandro Lameiras Koerich

PLAN DE COURS

Automne 2024
MTI850 : Analytiques des données massives (3 crédits)

Préalables
Aucun préalable requis

Descriptif du cours
Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Ce cours vous permettra développer vos connaissances en analyse de données massives et améliorerez vos compétences en programmation et en mathématiques. Vous apprendrez à utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.

À la fin de ce cours, les étudiantes et les étudiants devraient être en mesure de : illustrer et expliquer la nature des systèmes d’analyse de données; appliquer les connaissances en apprentissage machine requise pour concevoir tels systèmes; utiliser les outils appropriés pour valider et évaluer la performance de tels systèmes, combiner narration, code et graphiques pour créer des documents analytiques convaincants; aborder les problèmes de la science des données à grande échelle avec créativité et esprit d’initiative.

Les sujets abordés incluent entre autres : introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDD), dataframes et datasets. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyperparamètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

Objectifs du cours

À la suite de ce cours, l’étudiant sera en mesure :

de reconnaître les concepts fondamentaux de la science des données;
de reconnaître les défis de l’extensibilité pour les tâches courantes d’apprentissage machine;
de comprendre comment utiliser des données brutes pour faire l’apprentissage de modèles statistiques;
de concevoir et implémenter des pipelines distribués d’apprentissage machine.

Introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDDs). Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyper paramètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

L’étudiant doit maîtriser les concepts de base d’apprentissage machine avant de prendre ce cours (ce cours n’en est pas une d’introduction à l’apprentissage machine).

Stratégies pédagogiques

Mode d'enseignement: H (hybride).

l’activité se donne en partie à distance*, en partie en présence. La présence à l’ÉTS est requise pour certaines séances seulement. Lors d’une séance, le mode d’enseignement est le même pour tous les étudiants et étudiantes.

Les objectifs seront atteints par une combinaison de cours magistraux, de lectures individuelles, de discussions, et d’application des concepts vus en classe lors de six (6) projets dirigés en équipe.
La participation active des étudiants et étudiantes est le premier facteur de succès de ce cours.

Utilisation d’appareils électroniques

Les étudiantes/étudiants doivent avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque et être à l’aise avec le système d’exploitation Linux (distribution Ubuntu).

Horaire

Groupe	Jour	Heure	Activité
01	Mercredi	13:30 - 17:00	Activité de cours

Coordonnées du personnel enseignant le cours

Groupe	Nom	Activité	Courriel	Local	Disponibilité
01	Alessandro Lameiras Koerich	Activité de cours	Alessandro.LameirasKoerich@etsmtl.ca	A-4487

Cours

1. Introduction. Définitions et concepts de base des données massives (big data). Survol du contenu. Défis et opportunités pour le big data. Configuration d’un environnement de travail pour les données massives. (4h)

2. Collection, nettoyage, intégration et entreposage de données massives. (3h)

3. Systèmes distribués de stockage et d’analyse en lot. L’écosystème Hadoop (SQOOP, Flume, HDFS, HBASE, HIVE, PIG, etc.). (3h)

4. Révision des principaux algorithmes d’apprentissage machine pour classification, régression et règles d’associations. (3h)

5. Resilient Distributed Datasets (RDDs). Le cadriciel Apache Spark pour data analytique (SQL, Streaming, Mllib, GraphX). (4h)

6. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. (3h)

7. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. (6h)

8. Transformations de primitives. Construction de pipelines d’apprentissage machine. (4h)

9. Évaluation des modèles et réglage des hyper paramètres. (3h)

10. Apprentissage machine pour les flux de données. Spark Streaming. (3h)

11. Déviation de concept et détection de nouveauté. (3h)

Ces heures sont des heures approximatives d’enseignement pour chaque sujet.

Laboratoires et travaux pratiques

Les projets dirigés réalisés en classe ou en devoir seront associés aux notions théoriques présentées à chacune des séances. Les projets dirigés proposés sont les suivants :

Projet dirigé 1 : Analyse de texte et comptage des mots.
Projet dirigé 2 : Analyse de log d'un serveur WEB.
Projet dirigé 3 : Prédiction de la puissance de sortie à partir d'un ensemble de lectures environnementales de divers capteurs dans une centrale au gaz naturel.
Projet dirigé 4 : Les évaluations des films utilisant filtrage collaboratif.
Projet dirigé 5 : Prédiction de clique sur des publicités.
Projet dirigé 6 : Modèle de régression linéaire pour prédire l'année de sortie d'une chanson.

Évaluation

Projets dirigés (PD) : 30 %

Examen intra : 20 %

Examen final : 50 %

Double seuil
Note minimale : 50

Dates des examens intra

Groupe(s)	Date
1	23 octobre 2024

Date de l'examen final
Votre examen final aura lieu pendant la période des examens finaux, veuillez consulter l'horaire à l'adresse suivante : https://www.etsmtl.ca/programmes-et-formations/horaire-des-examens-finaux

Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.5/ cycles supérieurs, article 6.5.2) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignante ou l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Absence à une évaluation

Afin de faire valider une absence à une évaluation en vue d’obtenir un examen de compensation, l’étudiante ou l’étudiant doit utiliser le formulaire prévu à cet effet dans son portail MonÉTS pour un examen final qui se déroule durant la période des examens finaux ou pour tout autre élément d’évaluation surveillé de 15% et plus durant la session. Si l’absence concerne un élément d’évaluation de moins de 15% durant la session, l’étudiant ou l’étudiante doit soumettre une demande par écrit à son enseignante ou enseignant.

Toute demande de validation d’absence doit se faire dans les cinq (5) jours ouvrables suivant la tenue de l’évaluation, sauf dans les cas d’une absence pour participation à une activité prévue aux règlements des études où la demande doit être soumise dans les cinq (5) jours ouvrables avant le jour de départ de l’ÉTS pour se rendre à l’activité.

Toute absence non justifiée par un motif majeur (voir articles 7.2.6.1 du RÉPC et 6.5.2 du RÉCS) entraînera l’attribution de la note zéro (0).

Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiantes et les étudiants doivent consulter le Règlement sur les infractions de nature académique (www.etsmtl.ca/a-propos/gouvernance/secretariat-general/cadre-reglementaire/reglement-sur-les-infractions-de-nature-academique) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet. À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et tous les membres de la communauté étudiante sont invités à consulter la page Citer, pas plagier ! (www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).

Systèmes d’intelligence artificielle générative (SIAG)
L’utilisation des systèmes d’intelligence artificielle générative (SIAG) dans les activités d’évaluation constitue une infraction de nature académique au sens du Règlement sur les infractions de nature académique, sauf si elle est explicitement autorisée par l’enseignante ou l’enseignant du cours.

Documentation obligatoire

Aucun

Ouvrages de références

J.S. Damji, B. Wenig, T. Das, D. Lee. Learning Spark: Lightning-Fast Data Analytics. 2nd Edition. O'Reilly, 2020.
B. Chambers, M. Zaharia. Spark: The Definitive Guide. O'Reilly, 2018.
M. Guller. Big Data Analytics with Spark. Apress, 2015.
J. Dean. Big Data, Data Mining, and Machine Learning, John Wiley & Sons, 2014.
H. Karau. Fast Data Processing with Spark, Packt Publishing, 2013.
J. Lerkovec, A. Rajaraman, J. D. Ullman. Mining of Massive Datasets. 2nd Ed. Cambridge University Press, 2014.
Diverses lectures (par exemple, des articles scientifiques) seront imposées au cours de la session à partir des publications électroniques disponibles à la bibliothèque de l’ÉTS.

Adresse internet du site de cours et autres liens utiles

Site du cours sur Moodle : http://ena.etsmtl.ca/course/view.php?id=24220

Autres informations

Les étudiantes/étudiants doivent :

Avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque;
Être à l’aise avec le système d’exploitation Linux (distribution Ubuntu);
Être capable d’installer et de configurer des machines virtuelles (VirtualBox);
Maitriser la programmation Python 3;
Maitriser la programmation SQL;
Une solide connaissance des statistiques, des probabilités et de l'algèbre linéaire;
Avoir de bonnes connaissances d’apprentissage machine;
Avoir de bonnes connaissances en anglais, car tout le matériel didactique est dans cette langue.