Logo ÉTS
Session
Cours
Responsable(s) Alessandro Lameiras Koerich

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Alessandro Lameiras Koerich


PLAN DE COURS

Automne 2021
MTI850 : Analytiques des données massives (3 crédits)





Préalables
Aucun préalable requis




Descriptif du cours
Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Ce cours vous permettra développer vos connaissances en analyse de données massives et améliorerez vos compétences en programmation et en mathématiques. Vous apprendrez à utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.

À la fin de ce cours, les étudiantes et les étudiants devraient être en mesure de : illustrer et expliquer la nature des systèmes d’analyse de données; appliquer les connaissances en apprentissage machine requise pour concevoir tels systèmes; utiliser les outils appropriés pour valider et évaluer la performance de tels systèmes, combiner narration, code et graphiques pour créer des documents analytiques convaincants; aborder les problèmes de la science des données à grande échelle avec créativité et esprit d’initiative.

Les sujets abordés incluent entre autres : introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDD), dataframes et datasets. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyperparamètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.



Objectifs du cours

À la suite de ce cours, l’étudiant sera en mesure :

  • de reconnaître les concepts fondamentaux de la science des données;
  • de reconnaître les défis de l’extensibilité pour les tâches courantes d’apprentissage machine;
  • de comprendre comment utiliser des données brutes pour faire l’apprentissage de modèles statistiques;
  • de concevoir et implémenter des pipelines distribués d’apprentissage machine.  

Introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDDs). Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyper paramètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

L’étudiant doit maîtriser les concepts de base d’apprentissage machine avant de prendre ce cours (ce cours n’en est pas une d’introduction à l’apprentissage machine).




Stratégies pédagogiques

Les objectifs seront atteints par une combinaison de cours magistraux, de lectures individuelles, de discussions, et d’application des concepts vus en classe lors de six (6) projets dirigés en équipe.

La participation active des étudiants et étudiantes est le premier facteur de succès de ce cours.




Utilisation d’appareils électroniques

Les étudiantes/étudiants doivent avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque et être à l’aise avec le système d’exploitation Linux (distribution Ubuntu).




Horaire
Groupe Jour Heure Activité
01 Mercredi 08:30 - 12:00 Activité de cours



Coordonnées de l’enseignant
Groupe Nom Activité Courriel Local Disponibilité
01 Alessandro Lameiras Koerich Activité de cours Alessandro.LameirasKoerich@etsmtl.ca A-4487



Cours

1. Introduction. Définitions et concepts de base des données massives (big data). Survol du contenu. Défis et opportunités pour le big data. Configuration d’un environnement de travail pour les données massives. (4h)

2. Collection, nettoyage, intégration et entreposage de données massives. (3h)

3. Systèmes distribués de stockage et d’analyse en lot. L’écosystème Hadoop (SQOOP, Flume, HDFS, HBASE, HIVE, PIG, etc.). (3h)

4. Révision des principaux algorithmes d’apprentissage machine pour classification, régression et règles d’associations. (3h)

5. Resilient Distributed Datasets (RDDs). Le cadriciel Apache Spark pour data analytique (SQL, Streaming, Mllib, GraphX). (4h)

6. Apprentissage machine avec des données structurées, semi-structurées et non-structurées. (3h)

7. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. (6h)

8. Transformations de primitives. Construction de pipelines d’apprentissage machine. (4h)

9. Évaluation des modèles et réglage des hyper paramètres. (3h)

10. Apprentissage machine pour les flux de données. Spark Streaming. (3h)

11. Déviation de concept et détection de nouveauté. (3h)

Ces heures sont des heures approximatives d’enseignement pour chaque sujet.




Laboratoires et travaux pratiques

Les projets dirigés réalisés en classe ou en devoir seront associés aux notions théoriques présentées à chacune des séances. Les projets dirigés proposés sont les suivants :

  • Projet dirigé 1 : Analyse de texte et comptage des mots.
  • Projet dirigé 2 : Analyse de log d'un serveur WEB.
  • Projet dirigé 3 : Prédiction de la puissance de sortie à partir d'un ensemble de lectures environnementales de divers capteurs dans une centrale au gaz naturel.
  • Projet dirigé 4 : Les évaluations des films utilisant filtrage collaboratif.
  • Projet dirigé 5 : Prédiction de clique sur des publicités.
  • Projet dirigé 6 : Modèle de régression linéaire pour prédire l'année de sortie d'une chanson.



Évaluation

Projets dirigés (PD) : 30 %

Examen intra : 20 %

Examen final : 50 %




Dates des examens intra
Groupe(s) Date
1 13 octobre 2021



Date de l'examen final
Votre examen final aura lieu pendant la période des examens finaux, veuillez consulter l'horaire à l'adresse suivante : http://etsmtl.ca/Etudiants-actuels/Baccalaureat/Examens-finaux


Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.



Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).



Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le Règlement sur les infractions de nature académique (https://www.etsmtl.ca/docs/ETS/Gouvernance/Secretariat-general/Cadre-reglementaire/Documents/Infractions-nature-academique ) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet.  À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page Citer, pas plagier ! (https://www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).



Documentation obligatoire

Aucun




Ouvrages de références
  • M. Guller. Big Data Analytics with Spark. Apress, 2015.
  • J. Dean. Big Data, Data Mining, and Machine Learning, John Wiley & Sons, 2014.
  • H. Karau. Fast Data Processing with Spark, Packt Publishing, 2013.
  • J. Lerkovec, A. Rajaraman, J. D. Ullman. Mining of Massive Datasets. 2nd Ed. Cambridge University Press, 2014.
  • Diverses lectures (par exemple, des articles scientifiques) seront imposées au cours de la session à partir des publications électroniques disponibles à la bibliothèque de l’ÉTS.



Adresse internet du site de cours et autres liens utiles

Site du cours sur Moodle : http://ena.etsmtl.ca/course/view.php?id=15577




Autres informations

Les étudiantes/étudiants doivent :

  1. Avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque;
  2. Être à l’aise avec le système d’exploitation Linux (distribution Ubuntu);
  3. Être capable d’installer et de configurer des machines virtuelles (VirtualBox);
  4. Maitriser la programmation Python 3;
  5. Maitriser la programmation SQL;
  6. Une solide connaissance des statistiques, des probabilités et de l'algèbre linéaire;
  7. Avoir de bonnes connaissances d’apprentissage machine;
  8. Avoir de bonnes connaissances en anglais, car tout le matériel didactique est dans cette langue.