Logo ÉTS
Session
Cours
Responsable(s) Michel Rioux, Tony Wong

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Michel Rioux, Tony Wong


PLAN DE COURS

Été 2024
ENM860 : Analyse de données et systèmes prédictifs (3 crédits)





Préalables
Aucun préalable requis




Descriptif du cours
Ce cours vise à concevoir et appliquer des solutions utilisant les technologies d’analyse de données et d’apprentissage automatique. L’étudiante ou l'étudiant apprend et applique les étapes de conception dans la réalisation de systèmes prédictifs orientés vers les besoins d’une organisation ou d’une entreprise. Au terme de ce cours, l’étudiante ou l'étudiant sera en mesure d’appliquer différentes analyses exploratoires multidimensionnelles sur des données numériques et nominales; de manipuler les éléments d’un système prédictif et schématiser les interconnexions logiques entre l’analyse de données et l’apprentissage automatique; d’adapter des technologies de l’intelligence artificielle au secteur manufacturier et des services; de savoir construire et déployer des systèmes prédictifs à l’aide d’une plateforme infonuagique. Analyse exploratoire des données, apprentissage automatique, système prédictif, plateforme infonuagique, architecture de déploiement.



Objectifs du cours

Ce cours est dédié à la conception et à l’application de solutions utilisant les technologies d’analyse de données et d’apprentissage automatique. Cette approche permettra aux étudiants d’apprendre et d’appliquer les étapes de conception dans la réalisation de systèmes prédictifs orientés vers les besoins de l’entreprise. Plus spécifiquement, au terme de ce cours, les étudiants devront être capables :

  • De réaliser différentes analyses exploratoires multidimensionnelles avec des données numériques et nominales;
  • De reconnaître les éléments d’un système prédictif;
  • De réaliser les interconnexions logiques entre l’analyse de données et l’apprentissage automatique;
  • D’adapter des technologies de l’intelligence artificielle au secteur manufacturier et des services;
  • De concevoir des systèmes prédictifs à l’aide d’une plateforme infonuagique;
  • De déployer ces systèmes prédictifs.



Stratégies pédagogiques

Ce cours en formule intensive exige une bonne autonomie des étudiants; les lectures préliminaires sont fortement recommandées.  Les séances de cours sont des moments privilégiés pour présenter et expérimenter différentes  techniques d'analyse et de conception de solutions. Les difficultés rencontrées et les approches de contournement seront discutées afin d’identifier les solutions les plus efficientes.




Utilisation d’appareils électroniques

Pas d'enregistrement audio/vidéo sans autorisation des enseignants.




Horaire
Groupe Jour Heure Activité
01 Mardi 08:30 - 17:00 Activité de cours
Mercredi 08:30 - 17:00 Deuxième activité de cours



Coordonnées du personnel enseignant le cours
Groupe Nom Activité Courriel Local Disponibilité
01 Michel Rioux Activité de cours Michel.Rioux@etsmtl.ca A-3631
01 Tony Wong Activité de cours Tony.Wong@etsmtl.ca A-3633



Cours

 

1ère partie : Analyse de données multidimensionnelles (Michel Rioux)

Date

Analyse de données - préliminaire
  • Introduction au cours (contexte, références, matière couverte)
  • Rappel : quelques éléments d'algèbre linéaire et de statistique
    • Transformation linéaire;
    • Valeurs propres et vecteur propres;
    • Variance, covariance et corrélation;
    • Matrice de covariance.
  • Éléments de base en analyse de données
  • Données centrées et réduites;
  • Nuages des individus;
  • Nuage des variables.


Ces concepts et notions seront utilisés dans toutes les autres sections de ce cours.
Les applications numériques seront effectuées avec Excel et à l'aide du complément d'algèbre linéaire matrix.xla.

Analyse en composantes principales (ACP)

  • But et contexte d'application;
  • Étude des individus;
  • Étude des variables;
  • Liens entre les deux études;
  • Individus et variables supplémentaires;
  • Applications numériques.

Techniques d'interprétation des résultats

  • Projection des individus dans l'espace des variables;
  • Projection des variables dans l'espace des individus;
  • Qualité de représentation Cos2;
  • Contribution des individus - des variables;
  • Cercle de corrélation.

Les applications numériques seront effectuées avec Stagraphics et R/FactomineR.

07 mai 2024

Analyse factorielle des correspondances (AFC)
  • But et contexte d'application;
  • Test de l'indépendance du khi carré;
  • Étude des profils-lignes;
  • Étude des profils-colonnes
  • Liens entre les deux études;
  • Effet Guttman;
  • Exemples numériques.
Techniques d'interprétation des résultats
  • Géométrie des coordonnées principales;
  • Distance par rapport à l'origine;
  • Inertie d'un point, d'une composante;
  • Contribution d'un point;
  • Qualité de représentation Cos2.

Analyse (factorielle) des correspondances Multiples (ACM)

  • But et contexte d'application;
  • Tableau disjonctif complet des données;
  • AFC sur le tableau disjonctif complet;
  • Exemples numériques.

Techniques d'interprétation des résultats

  • Géométrie des coordonnées principales;
  • Distance par rapport à l'origine;
  • Inertie d'un point, d'une composante;
  • Contribution d'un point;
  • Qualité de représentation Cos2.

Les applications numériques seront effectuées avec Stagraphics et R/FactomineR.

14 mai 2024

Classification hiérarchique et partitionnement

  • But et contexte d'application;
  • Notions de ressemblance;
  • Utilité du partitionnement et de la classification hiérarchique en analyse factorielle;
  • Exemples numériques.

Techniques d'interprétation des résultats

  • Détermination du nombre de classes.

Modèles classiques de régression

  • But et contexte d'application;
  • Régression multiple;
  • Régression logistique;
  • Analyse discriminante;
  • Exemples numériques.

Les applications numériques seront effectuées avec Stagraphics et R/FactomineR.

28 mai 2024

 

2e partie : Conception et déploiement des systèmes prédictifs (Tony Wong)

Date

Traitement des données

  • Nettoyage;
  • Mise en échelle;
  • Détection des valeurs aberrantes;
  • Jeu de données déséquilibré.

Ingénierie et sélection des caractéristiques

  • Regroupement des données (binning)
    • Entropie et MDL (Minimum Description Length);
    • Quantiles;
    • Largeur égale;
    • Largeur personnalisée;
    • ACP.
  • Sélection des caractéristiques
    • Approche « filter » : corrélation, théorie de l’information, tests statistiques;
    • Approche « wrapper » : importance des caractéristiques basée la permutation (permutation feature importance).

Les applications pratiques seront effectuées avec Azure ML studio Desginer.

04 juin 2024

Modèles prédictifs

  • Boosted Decision Trees;
  • SVM (Support Vector Machines);
  • Neural Networks;
  • Interprétation des résultats par LIME et SHAP

Les applications pratiques seront effectuées sur Colab et Azure ML studio Designer.

05 juin 2024

Systèmes prédictifs en tant que services WEB

  • Conversion des modèles prédictifs en services WEB;
  • Utilisation des modèles prédictifs à distance :
    • Query editor de Power BI;
    • VBA d'Excel;
    • R  et Python.

Déploiement en entreprise

  • Intégration dans Power Automate
    • Création d’un « flow »;
    • Personnalisé le « flow »;
    • Automatisation par des éléments UI (User Interface);
    • Réaliser des requêtes.
  • Intégration dans Power Apps
    • Création d’une application mobile/web;
    • Connexion aux services WEB des modèles prédictifs;
    • Réaliser des requêtes.

Les applications pratiques seront effectuées sur Colab, Azure ML studio Designer, Excel,  Power Automate et Power Apps.

11 juin 2024

 




Laboratoires et travaux pratiques

(Pas de séances de TP).




Évaluation

Pour chacune des deux parties du cours, l'évaluation se fera par l'entremise d'un devoir de 20% et d'un rapport de projet de 30%.

Analyse de données

  • Devoir #1 / analyse de données                   20%
  • Rapport de projet / analyse de données      30%

Modèles prédictifs

  • Devoir #2 / modèles prédictifs                      20%
  • Rapport de projet / modèles prédictifs         30%



Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.5/ cycles supérieurs, article 6.5.2) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignante ou l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Dispositions additionnelles

Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.




Absence à une évaluation
Dans les cinq (5) jours ouvrables suivants, la tenue de son examen, l’étudiante ou l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice ou du coordonnateur – Affaires académiques qui en référera à la personne assurant la direction du département. Pour un examen final, l’étudiante ou l’étudiant devra justifier son absence auprès du Bureau de la registraire. Dans tous les cas, l’étudiante ou l’étudiant doit effectuer sa demande en complétant le formulaire de demande d’examen de compensation qui se trouve dans son portail Mon ÉTS/Formulaires. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat, activité compétitive d’une étudiante ou d’un étudiant appartenant à un club scientifique ou un club sportif d’élite de l’ÉTS ou au programme « Alliance sport étude » ou autre) à un examen entraînera l’attribution de la note zéro (0).



Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiantes et les étudiants doivent consulter le Règlement sur les infractions de nature académique (www.etsmtl.ca/a-propos/gouvernance/secretariat-general/cadre-reglementaire/reglement-sur-les-infractions-de-nature-academique) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet. À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et tous les membres de la communauté étudiante sont invités à consulter la page Citer, pas plagier ! (www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).

Systèmes d’intelligence artificielle générative (SIAG)
L’utilisation des systèmes d’intelligence artificielle générative (SIAG) dans les activités d’évaluation constitue une infraction de nature académique au sens du Règlement sur les infractions de nature académique, sauf si elle est explicitement autorisée par l’enseignante ou l’enseignant du cours.



Documentation obligatoire
  • Documentation disponible sur le site Moodle du cours.

 

  • Husson F., Lê, S. et Pagès, J. (2016). Analyse de données avec R, 2e édition, Presses Universitaires de Rennes. ISBN :978-2-7535-4869-5.

ou

  • Asselin de Beauville, J.-P., Varin, S. (2014). Initiation au logiciel R : premiers pas en analyse de données. Academia-L'Harmattan. ISBN : 978-2-8061-0196-9.



Ouvrages de références

Analyse exploration des données

  • Francois Husson, Sebastien Le (Author) & Jérôme Pagès, (2017), Exploratory Multivariate Analysis by Example Using R, Chapman and Hall, 262 pages, ISBN-10: 1138196347
  • Alain Morineau, Yves-Marie Chatelin, Bernard Goldfarb & Catherine Pardoux, (2005), L'analyse statistique des données : apprendre, comprendre et réaliser avec Excel, Ellipse Édition, 407 pages, ISBN-10 : 2729823034
  • Brigittes Escofier, Jérôme Pagès, (2016), Analyses factorielles simples et multiples, Dunod, 400 pages, ISBN-10: 2100041274
  • Ludovic Lebart, Marie Piron et Alain Morineau (2006), Statistique exploratoire multidimensionnelle, Dunod, 480 pages, ISBN-10: 2100496166

Apprentissage automatique

  • Andriy Burkov, (2019), The Hundred-Page Machine Learning Book, 160 pages, ISBN-10: 199957950X
  • Tom Mitchell, (1997), Machine Learning, McGraw-Hill, 352 pages, ISBN-10: 0071154671
  • Trevor Hastie Robert Tibshirani & Jerome Friedman, (2008), The elements of statistical learning: data mining, inference and prediction, Springer, 745 pages, ISBN-10: 0387848576
  • Yaser S. Abu-Mostafa, Malik Magdon-Ismail & Hsuan-Tien Lin, (2012), Learning from data, AMLBook, ISBN-10: 1600490069
  • Ian Goodfellow, Yoshua Bengio (Author) & Aaron Courville, (2016), Deep Learning, MIT Press, 800 pages, ISBN-10: 0262035618.

Langage R

  • R core team, (2015), An Introduction to R, Samurai Media Limited, 106 pages, ISBN-10: 9881443636
  • John Taveras, (2016), R for Excel Users: An Introduction to R for Excel Analysts, CreateSpace Independent Publishing Platform, 212 pages, ISBN-10: 1500566357

Azure Machine Learning

  • Sina Fakhraee, Balamurugan Balakreshnan, Megan Masanz, (2023).  Azure Machine Learning Engineering: Deploy, fine-tune, and optimize ML models using Microsoft Azure, Packt Publishing, 362 pages, ISBN-10 ‏: ‎ 1803239301
  • Deepak Mukunthu, Parashar Shah & Wee Hyong Tok, (2019), Practical Automated Machine Learning on Azure: Using Azure Machine Learning to Quickly Build AI Solutions, O'Reilly, 198 pages, ISBN-10: 149205559X
  • Mathew Salvaris, Danielle Dean & Wee Hyong Tok, (2018), Deep Learning with Azure: Building and Deploying Artificial Intelligence Solutions on the Microsoft AI Platform, APress, 284 pages, ISBN-10: 9781484236789

D'autres références (en-ligne) sont citées sur le site Moodle du cours.




Adresse internet du site de cours et autres liens utiles

Les notes de cours et autres ressources pédagogiques sont disponibles sur le site Moodle du cours.




Autres informations

Logiciels utilisés :

  • Microsoft Excel;
  • matrix.xla;
  • Statgraphics;
  • FactoMineR, Factoshiny, factoextra et FactoInvestigate;
  • Colab;
  • Microsoft Machine Learning Studio;
  • Microsoft Power Automate;
  • Microsoft Power Apps;
  • Microsoft Power BI.