Logo ÉTS
Session
Cours
Responsable(s) Alessandro Lameiras Koerich

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Alessandro Lameiras Koerich


PLAN DE COURS

Automne 2020
MTI850 : Analytiques des données massives (3 crédits)


Modalités de la session d’automne 2020
Pour assurer la tenue de la session d’automne 2020, les modalités suivantes seront appliquées :


La plupart des cours de la session d'automne seront donnés à distance. Les autres seront donnés en présence. Cette information vous a déjà été communiquée.

L’étudiant inscrit à un cours à distance doit avoir accès à un ordinateur, un micro, une caméra et un accès à internet, idéalement de 10Mb/s ou plus.

Les cours à distance pourraient être enregistrés, à la discrétion de l’ÉTS. Le cas échéant, les enregistrements de cours pourraient notamment être rendus accessibles aux étudiants par le biais notamment du portail de l’ÉTS.

La notation des cours sera la notation régulière prévue aux règlements des études de l'ÉTS.

Pour les cours à distance, les examens (intra, finaux) se feront normalement à distance. Leur surveillance se fera à l’aide de la caméra et du micro de l’ordinateur et pourrait être enregistrée. Ceci est nécessaire pour se conformer aux exigences du Bureau canadien d’agrément des programmes de génie (BCAPG) afin d’assurer la validité des évaluations.
 
Le contexte actuel oblige bien sûr l’ÉTS à envisager la possibilité d’une deuxième vague de la pandémie de COVID-19, laquelle pourrait entraîner, après le début de la session d’automne 2020, un resserrement des directives et recommandations gouvernementales. Nous vous assurons que l’ÉTS se conformera aux règles en vigueur afin de préserver la santé publique et que, si requis, elle pourrait aller jusqu’à interdire l’accès physique au campus universitaire et ordonner la dispense en ligne de toutes les activités d’enseignement et d’évaluation pour la durée restante de la session d’automne 2020.

Des exigences additionnelles pourraient être spécifiées par l’ÉTS ou votre département, suivant les particularités propres à votre programme.

Si vous ne consentez pas aux modalités décrites précédemment, vous devez vous désinscrire de vos cours avant le 13 septembre et vous pourrez être remboursé.

Pour les nouveaux étudiants inscrits au programme de baccalauréat uniquement, vous devez vous désinscrire avant le 25 septembre et vous pourrez être remboursé.

En demeurant inscrit, vous acceptez les modalités particulières de la session d'automne 2020.




Préalables
Aucun préalable requis




Descriptif du cours

Au terme de ce cours, l'étudiant sera mesure :

  • d'illustrer et expliquer la nature des systèmes d’analyse de données;
  • d'appliquer les connaissances en apprentissage machine requise pour concevoir tels systèmes;
  • d'utiliser les outils appropriés pour valider et évaluer la performance de tels systèmes, combiner narration, code et graphiques pour créer des documents analytiques convaincants;
  • d'aborder les problèmes de la science des données à grande échelle avec créativité et esprit d’initiative.

Ce cours présente les concepts pour effectuer une analyse statistique de très grands ensembles de données qui ne tiennent pas sur un seul ordinateur. Ce cours vous permettra développer vos connaissances en analyse de données massives et améliorerez vos compétences en programmation et en mathématiques. Vous apprendrez à utiliser des outils analytiques essentiels pour l’analyse statistique des données massives. Plusieurs problèmes applicatifs seront étudiés et différentes méthodes et outils pour effectuer ce type d’analyse seront étudiés.




Objectifs du cours

À la suite de ce cours, l’étudiant sera en mesure :

  • de reconnaître les concepts fondamentaux de la science des données;
  • de reconnaître les défis de l’extensibilité pour les tâches courantes d’apprentissage machine;
  • de comprendre comment utiliser des données brutes pour faire l’apprentissage de modèles statistiques;
  • de concevoir et implémenter des pipelines distribués d’apprentissage machine.  

Introduction aux données massives (big data). Collection, nettoyage, intégration et entreposage de données massives. Systèmes distribués de stockage et d’analyse en lot. Révision des principaux algorithmes d’apprentissage machine pour classification et régression. Resilient Distributed Datasets (RDDs). Apprentissage machine avec des données structurées, semi-structurées et non-structurées. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. Transformations de primitives. Construction de pipelines d’apprentissage. Évaluation des modèles et réglage des hyper paramètres. Apprentissage machine pour les flux de données. Déviation de concept et détection de nouveauté.

L’étudiant doit maîtriser les concepts de base d’apprentissage machine avant de prendre ce cours (ce cours n’en est pas une d’introduction à l’apprentissage machine).




Stratégies pédagogiques

Les objectifs seront atteints par une combinaison de cours magistraux, de lectures individuelles, de discussions, et d’application des concepts vus en classe lors de six (6) projets dirigés en équipe.

La participation active des étudiants et étudiantes est le premier facteur de succès de ce cours.




Utilisation d’appareils électroniques

Les étudiantes/étudiants doivent avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque et être à l’aise avec le système d’exploitation Linux (distribution Ubuntu).




Horaire
Groupe Jour Heure Activité
01 Mardi 08:30 - 12:00 Activité de cours



Coordonnées de l’enseignant
Groupe Nom Activité Courriel Local Disponibilité
01 Alessandro Lameiras Koerich Activité de cours Alessandro.Koerich@etsmtl.ca A-4487



Cours

1. Introduction. Définitions et concepts de base des données massives (big data). Survol du contenu. Défis et opportunités pour le big data. Configuration d’un environnement de travail pour les données massives. (4h)

2. Collection, nettoyage, intégration et entreposage de données massives. (3h)

3. Systèmes distribués de stockage et d’analyse en lot. L’écosystème Hadoop (SQOOP, Flume, HDFS, HBASE, HIVE, PIG, etc.). (3h)

4. Révision des principaux algorithmes d’apprentissage machine pour classification, régression et règles d’associations. (3h)

5. Resilient Distributed Datasets (RDDs). Le cadriciel Apache Spark pour data analytique (SQL, Streaming, Mllib, GraphX). (4h)

6. Apprentissage machine avec des données structurées, semi-structurées et non-structurées.(3h)

7. Apprentissage extensible et distribué. Hiérarchie de calcul, de stockage et de communication. (6h).

8. Transformations de primitives. Construction de pipelines d’apprentissage machine. (4h)

9. Évaluation des modèles et réglage des hyper paramètres (3h).

10. Apprentissage machine pour les flux de données. Spark Streaming (3h).

11. Déviation de concept et détection de nouveauté (3h).

Ces heures sont des heures approximatives d’enseignement pour chaque sujet.




Laboratoires et travaux pratiques

Les projets dirigés réalisés en classe ou en devoir seront associés aux notions théoriques présentées à chacune des séances. Les projets dirigés proposés sont les suivants :

  • Projet dirigé 1: Analyse de texte et comptage des mots
  • Projet dirigé 2: Analyse de log d'un serveur WEB.
  • Projet dirigé 3 : Prédiction de la puissance de sortie à partir d'un ensemble de lectures environnementales de divers capteurs dans une centrale au gaz naturel.
  • Projet dirigé 4 : Les évaluations des films utilisant filtrage collaboratif.
  • Projet dirigé 5 : Prédiction de clique sur des publicités.
  • Projet dirigé 6 : Modèle de régression linéaire pour prédire l'année de sortie d'une chanson.



Évaluation

Projets dirigés (PD) : 30 %

Examen intra : 20%

Examen final : 50 %




Dates des examens intra
Groupe(s) Date
1 6 octobre 2020



Date de l'examen final
Votre examen final aura lieu pendant la période des examens finaux, veuillez consulter l'horaire à l'adresse suivante : http://etsmtl.ca/Etudiants-actuels/Baccalaureat/Examens-finaux


Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.



Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).



Plagiat et fraude
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le Règlement sur les infractions de nature académique (https://www.etsmtl.ca/docs/ETS/Gouvernance/Secretariat-general/Cadre-reglementaire/Documents/Infractions-nature-academique ) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet.  À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page Citer, pas plagier ! (https://www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).



Documentation obligatoire

Aucun




Ouvrages de références
  • M. Guller. Big Data Analytics with Spark. Apress, 2015.
  • J. Dean. Big Data, Data Mining, and Machine Learning, John Wiley & Sons, 2014.
  • H. Karau. Fast Data Processing with Spark, Packt Publishing, 2013.
  • J. Lerkovec, A. Rajaraman, J. D. Ullman. Mining of Massive Datasets. 2nd Ed. Cambridge University Press, 2014.
  • Diverses lectures (par exemple, des articles scientifiques) seront imposées au cours de la session à partir des publications électroniques disponibles à la bibliothèque de l’ÉTS.



Adresse internet du site de cours et autres liens utiles

Site du cours sur Moodle : http://ena.etsmtl.ca/course/view.php?id=12981




Autres informations

Les étudiantes/étudiants doivent:

  1. Avoir un ordinateur avec au moins 8GB de RAM et 30GB d’espace libre en disque;
  2. Être à l’aise avec le système d’exploitation Linux (distribution Ubuntu);
  3. Être capable d’installer et de configurer des machines virtuelles (VirtualBox);
  4. Maitriser la programmation Python 3;
  5. Maitriser la programmation SQL;
  6. Une solide connaissance des statistiques, des probabilités et de l'algèbre linéaire;
  7. Avoir de bonnes connaissances d’apprentissage machine;
  8. Avoir de bonnes connaissances en anglais, car tout le matériel didactique est dans cette langue.