Logo ÉTS
Session
Cours
Responsable(s) Tony Wong

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Tony Wong


PLAN DE COURS

Été 2023
ENM860 : Analyse de données et systèmes prédictifs (3 crédits)





Préalables
Aucun préalable requis




Descriptif du cours

Ce cours vise à concevoir et appliquer des solutions utilisant les technologies d’analyse de données et d’apprentissage automatique. L’étudiant ou l'étudiante apprend et applique les étapes de conception dans la réalisation de systèmes prédictifs orientés vers les besoins d’une organisation ou d’une entreprise.

Au terme de ce cours, l’étudiant ou l'étudiante sera en mesure :

  • d’appliquer différentes analyses exploratoires multidimensionnelles sur des données numériques et nominales;
  • de manipuler les éléments d’un système prédictif et schématiser les interconnexions logiques entre l’analyse de données et l’apprentissage automatique;
  • d’adapter des technologies de l’intelligence artificielle au secteur manufacturier et des services;
  • de savoir construire et déployer des systèmes prédictifs à l’aide d’une plateforme infonuagique.

Analyse exploratoire des données, apprentissage automatique, système prédictif, plateforme infonuagique, architecture de déploiement




Objectifs du cours

Ce cours est dédié à la conception et à l’application de solutions utilisant les technologies d’analyse de données et d’apprentissage automatique. Cette approche permettra aux étudiants d’apprendre et d’appliquer les étapes de conception dans la réalisation de systèmes prédictifs orientés vers les besoins de l’entreprise. Plus spécifiquement, au terme de ce cours, les étudiants devront être capables :

  • De réaliser différentes analyses exploratoires multidimensionnelles avec des données numériques et nominales;
  • De reconnaître les éléments d’un système prédictif;
  • De réaliser les interconnexions logiques entre l’analyse de données et l’apprentissage automatique;
  • D’adapter des technologies de l’intelligence artificielle au secteur manufacturier et des services;
  • De concevoir des systèmes prédictifs à l’aide d’une plateforme infonuagique;
  • De déployer ces systèmes prédictifs.



Stratégies pédagogiques

Ce cours en formule intensive exige une bonne autonomie des étudiants; les lectures préliminaires sont fortement recommandées.  Les séances de cours sont des moments privilégiés pour présenter et expérimenter différentes  techniques d'analyse et de conception de solutions. Les difficultés rencontrées et les approches de contournement seront discutées afin d’identifier les solutions les plus efficientes.




Utilisation d’appareils électroniques

Pas d'enregistrement audio/vidéo sans autorisation des enseignants.




Horaire
Groupe Jour Heure Activité
01 Mardi 08:30 - 17:00 Activité de cours



Coordonnées de l’enseignant
Groupe Nom Activité Courriel Local Disponibilité
01 Michel Rioux Activité de cours Michel.Rioux@etsmtl.ca A-3631
01 Tony Wong Activité de cours Tony.Wong@etsmtl.ca A-3633



Cours

 

1ère partie : Analyse de données multidimensionnelles (Michel Rioux)

Date

Analyse de données - préliminaire
  • Introduction au cours (contexte, références, matière couverte)
  • Rappel : quelques éléments d'algèbre linéaire et de statistique
    • Transformation linéaire;
    • Valeurs propres et vecteur propres;
    • Variance, covariance et corrélation;
    • Matrice de covariance.
  • Éléments de base en analyse de données
  • Données centrées et réduites;
  • Nuages des individus;
  • Nuage des variables.


Ces concepts et notions seront utilisés dans toutes les autres sections de ce cours.
Les applications numériques seront effectuées avec Excel et à l'aide du complément d'algèbre linéaire matrix.xla.

Analyse en composantes principales (ACP)

  • But et contexte d'application;
  • Étude des individus;
  • Étude des variables;
  • Liens entre les deux études;
  • Individus et variables supplémentaires;
  • Applications numériques.

Techniques d'interprétation des résultats

  • Projection des individus dans l'espace des variables;
  • Projection des variables dans l'espace des individus;
  • Qualité de représentation Cos2;
  • Contribution des individus - des variables;
  • Cercle de corrélation.

Les applications numériques seront effectuées avec Stagraphics et R/FactomineR.

09 mai 2023

Analyse factorielle des correspondances (AFC)
  • But et contexte d'application;
  • Test de l'indépendance du khi carré;
  • Étude des profils-lignes;
  • Étude des profils-colonnes
  • Liens entre les deux études;
  • Effet Guttman;
  • Exemples numériques.
Techniques d'interprétation des résultats
  • Géométrie des coordonnées principales;
  • Distance par rapport à l'origine;
  • Inertie d'un point, d'une composante;
  • Contribution d'un point;
  • Qualité de représentation Cos2.

Analyse (factorielle) des correspondances Multiples (ACM)

  • But et contexte d'application;
  • Tableau disjonctif complet des données;
  • AFC sur le tableau disjonctif complet;
  • Exemples numériques.

Techniques d'interprétation des résultats

  • Géométrie des coordonnées principales;
  • Distance par rapport à l'origine;
  • Inertie d'un point, d'une composante;
  • Contribution d'un point;
  • Qualité de représentation Cos2.

Les applications numériques seront effectuées avec Stagraphics et R/FactomineR.

16 mai 2023

Classification hiérarchique et partitionnement

  • But et contexte d'application;
  • Notions de ressemblance;
  • Utilité du partitionnement et de la classification hiérarchique en analyse factorielle;
  • Exemples numériques.

Techniques d'interprétation des résultats

  • Détermination du nombre de classes.

Modèles classiques de régression

  • But et contexte d'application;
  • Régression multiple;
  • Régression logistique;
  • Analyse discriminante;
  • Exemples numériques.

Les applications numériques seront effectuées avec Stagraphics et R/FactomineR.

23 mai 2023

 

2e partie : Conception et déploiement des systèmes prédictifs (Tony Wong)

Date

Traitement des données

  • Nettoyage;
  • Mise en échelle;
  • Détection des valeurs aberrantes;
  • Jeu de données déséquilibré.

Ingénierie et sélection des caractéristiques

  • Regroupement des données (binning)
    • Entropie et MDL (Minimum Description Length);
    • Quantiles;
    • Largeur égale;
    • Largeur personnalisée;
    • ACP.
  • Sélection des caractéristiques
    • Approche « filter » : corrélation, théorie de l’information, tests statistiques;
    • Approche « wrapper » : importance des caractéristiques basée la permutation (permutation feature importance).

Les applications pratiques seront effectuées avec Azure ML studio Desginer.

30 mai 2023

Modèles prédictifs

  • Boosted Decision Trees;
  • SVM (Support Vector Machines);
  • Bayes Point Machines;
  • Neural Networks;
  • K-means;
  • Self-organizing Maps
  • Interprétation des résultats par LIME et SHAP

Les applications pratiques seront effectuées sur Colab et Azure ML studio Designer.

06 juin 2023

Systèmes prédictifs en tant que services WEB

  • Conversion des modèles prédictifs en services WEB;
  • Utilisation des modèles prédictifs à distance :
    • Query editor de Power BI;
    • VBA d'Excel;
    • R  et Python.

Déploiement en entreprise

  • Intégration dans Power Automate
    • Création d’un « flow »;
    • Personnalisé le « flow »;
    • Automatisation par des éléments UI (User Interface);
    • Réaliser des requêtes.
  • Intégration dans Power Apps
    • Création d’une application mobile/web;
    • Connexion aux services WEB des modèles prédictifs;
    • Réaliser des requêtes.

Les applications pratiques seront effectuées sur Colab, Azure ML studio Designer, Excel,  Power Automate et Power Apps.

13 juin 2023

 




Laboratoires et travaux pratiques

(Pas de séances de TP).




Évaluation

Pour chacune des deux parties du cours, l'évaluation se fera par l'entremise d'un devoir de 20% et d'un rapport de projet de 30%.

Analyse de données

  • Devoir #1 / analyse de données                   20%
  • Rapport de projet / analyse de données      30%

Modèles prédictifs

  • Devoir #2 / modèles prédictifs                      20%
  • Rapport de projet / modèles prédictifs         30%



Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Dispositions additionnelles

Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.




Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).



Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le Règlement sur les infractions de nature académique (https://www.etsmtl.ca/docs/ETS/Gouvernance/Secretariat-general/Cadre-reglementaire/Documents/Infractions-nature-academique ) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet.  À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page Citer, pas plagier ! (https://www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).



Documentation obligatoire
  • Documentation disponible sur le site Moodle du cours.

 

  • Husson F., Lê, S. et Pagès, J. (2016). Analyse de données avec R, 2e édition, Presses Universitaires de Rennes. ISBN :978-2-7535-4869-5.

ou

  • Asselin de Beauville, J.-P., Varin, S. (2014). Initiation au logiciel R : premiers pas en analyse de données. Academia-L'Harmattan. ISBN : 978-2-8061-0196-9.



Ouvrages de références

Analyse exploration des données

  • Francois Husson, Sebastien Le (Author) & Jérôme Pagès, (2017), Exploratory Multivariate Analysis by Example Using R, Chapman and Hall, 262 pages, ISBN-10: 1138196347
  • Alain Morineau, Yves-Marie Chatelin, Bernard Goldfarb & Catherine Pardoux, (2005), L'analyse statistique des données : apprendre, comprendre et réaliser avec Excel, Ellipse Édition, 407 pages, ISBN-10 : 2729823034
  • Brigittes Escofier, Jérôme Pagès, (2016), Analyses factorielles simples et multiples, Dunod, 400 pages, ISBN-10: 2100041274
  • Ludovic Lebart, Marie Piron et Alain Morineau (2006), Statistique exploratoire multidimensionnelle, Dunod, 480 pages, ISBN-10: 2100496166

Apprentissage automatique

  • Andriy Burkov, (2019), The Hundred-Page Machine Learning Book, 160 pages, ISBN-10: 199957950X
  • Tom Mitchell, (1997), Machine Learning, McGraw-Hill, 352 pages, ISBN-10: 0071154671
  • Trevor Hastie Robert Tibshirani & Jerome Friedman, (2008), The elements of statistical learning: data mining, inference and prediction, Springer, 745 pages, ISBN-10: 0387848576
  • Yaser S. Abu-Mostafa, Malik Magdon-Ismail & Hsuan-Tien Lin, (2012), Learning from data, AMLBook, ISBN-10: 1600490069
  • Ian Goodfellow, Yoshua Bengio (Author) & Aaron Courville, (2016), Deep Learning, MIT Press, 800 pages, ISBN-10: 0262035618.

Langage R

  • R core team, (2015), An Introduction to R, Samurai Media Limited, 106 pages, ISBN-10: 9881443636
  • John Taveras, (2016), R for Excel Users: An Introduction to R for Excel Analysts, CreateSpace Independent Publishing Platform, 212 pages, ISBN-10: 1500566357

Azure Machine Learning

  • Deepak Mukunthu, Parashar Shah & Wee Hyong Tok, (2019), Practical Automated Machine Learning on Azure: Using Azure Machine Learning to Quickly Build AI Solutions, O'Reilly, 198 pages, ISBN-10: 149205559X
  • Mathew Salvaris, Danielle Dean & Wee Hyong Tok, (2018), Deep Learning with Azure: Building and Deploying Artificial Intelligence Solutions on the Microsoft AI Platform, APress, 284 pages, ISBN-10: 9781484236789
  • Sumit Mund, (2015), Microsoft Azure Machine Learning, Packt Publishing, 212 pages, ISBN-10: 1784390798

D'autres références (en-ligne) sont citées sur le site Moodle du cours.




Adresse internet du site de cours et autres liens utiles

Les notes de cours et autres ressources pédagogiques sont disponibles sur le site Moodle du cours.




Autres informations

Logiciels utilisés :

  • Microsoft Excel;
  • matrix.xla;
  • Statgraphics;
  • R et RStudio;
  • FactoMineR, Factoshiny, factoextra et FactoInvestigate;
  • Colab;
  • Microsoft Machine Learning Studio;
  • Microsoft Power Automate;
  • Microsoft Power Apps;
  • Microsoft Power BI.