Logo ÉTS
Session
Cours
Responsable(s) Sylvie Ratté

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Sylvie Ratté


PLAN DE COURS

Hiver 2024
MTI830 : Forage de textes et de données audiovisuelles (3 crédits)





Préalables
Aucun préalable requis




Descriptif du cours

À la suite de ce cours, l’étudiant ou l'étudiante sera en mesure :

  • d’expliquer le fonctionnement des techniques de forage de textes et de données audiovisuelles;
  • de choisir une approche de forage en fonction des besoins de l’application;
  • d’évaluer les approches de techniques de forage.

Introduction à la théorie et aux techniques de forage de textes et de données audiovisuelles. Systèmes de recherche d'information textuelle et de documents audiovisuels; indexation efficace de texte et de documents audiovisuels; espace vectoriel booléen, modèles probabilistes de requête. Documents structurés et non structurés. Taille et diversité des corpus. Discussion sur les métriques d’évaluation et survol des techniques d’agrégation et de classification. Indexation sémantique latente. Évaluation des performances. Visualisation des résultats. Traitement automatique du langage naturel.




Objectifs du cours

Ce cours vise à procurer à l'étudiant(e) une connaissance de niveau intermédiaire des méthodes de forage de données textuelles et audiovisuelles et de leurs applications. Il vise également à faire comprendre les avantages et les limites de ces méthodes.

À la fin du cours, l’étudiant(e) sera en mesure d’expliquer le fonctionnement des techniques de forage de textes et de données audiovisuelles, de choisir une approche de forage en fonction des besoins de l’application et d’évaluer les résultats.

Il (elle) devra également être capable de lire et comprendre des articles scientifiques récents de niveau intermédiaire traitant des techniques de forage et de synthétiser ces connaissances pour ses pairs.

À la fin du cours, il (elle) possèdera une assez bonne connaissance des méthodes existantes. Il (elle) aura conçu et réalisé un mini-projet qu’il (elle) aura consigné dans un rapport technique et présenté en format conférence.




Stratégies pédagogiques
  • Le cours est construit autour de la réalisation d'un projet. Chaque équipe (max 3 étudiants.es) doivent réaliser un projet qu'ils·elles doivent concevoir.
  • Les documents pertinents (articles, vidéocasts) doivent être consultés avant la séance de cours. Les vidéocasts de chaque cours sont divisés en petits modules de moins de 10 minutes, ce qui permet de facilement focaliser vos efforts. Des exercices hebdomadaires permettent aux étudiants.es de vérifier leur connaissances acquises.
  • Les vidéos sont accessibles sur un Google Drive (etsmtl.net) et sur YouTube (consultez Moodle pour les liens).
  • Les 3,5 heures de cours se déroule en mode laboratoire interactif. Durant ces séances, une brève revue du contenu est présenté et le laboratoire interactif permet de réaliser les exercices de la semaine et de guider les étudiants.es dans la réalisation de leur projet. 
  • À chaque cours, nous consacrons du temps à la réalisation du projet et son suivi. Afin d’offrir un suivi personnalisé des projets, certaines séances seront transformées en séances de consultation sur mesure qui pourront se dérouler individuellement ou par petits groupes durant la période précitée.

La stratégie pédagogique adoptée se veut participative et centrée sur les projets des étudiants inscrits.

Les cours nécessitent l'utilisation d'un ordinateur. Chaque cours débute par une courte introduction du professeur. La durée de cette introduction varie selon le thème abordé. Elle est suivie d'une séance de suivi de projet ou d'une séance d'exercices. 

Le rapport final du projet est présenté en formant « article de conférence ». L’ensemble des rapports constitue le contenu des Actes de la quatorzième édition de la mini-conférence ÉTS-MINE. Celle-ci se tiendra sous la forme d'une session d'affiches enregistrée ou sous la forme d'une conférence (les modalités finales seront déterminées lors du premier cours). Les meilleurs articles pourront être soumis à une conférence nationale ou internationale. Dans cette optique, les articles pourront être rédigés en français ou en anglais. Un prix de 300$ pourra être remis à l'article/présentation qui se distingue.




Utilisation d’appareils électroniques

Il est fortement conseillé d'apporter un ordinateur durant la séance de cours puisque des exercices d'approfondissement sont réalisés durant la séance.




Horaire
Groupe Jour Heure Activité
01 Mardi 18:00 - 21:30 Activité de cours



Coordonnées de l’enseignant
Groupe Nom Activité Courriel Local Disponibilité
01 Sylvie Ratté Activité de cours Sylvie.Ratte@etsmtl.ca A-4482



Cours

Contenu détaillé[1]

1.    Introduction (3 heures[2])

1.1    Définition du forage : approches descriptives, prédictives et d’agrégation
1.2    Apprentissage machine et forage de données
1.3    Utilisation du forage : analyse des données, prétraitements, choix des approches, évaluation des résultats
1.4 Processus standard intersectoriel pour l'exploration de données

2. Rappel des techniques supervisées (3 heures)

2.1 Classification et prédiction
2.2 Arbres de décision
2.3 Classifieur bayésien
2.4 Plus proches voisins
2.5 Réseaux de neurones

3. Techniques non supervisées: forage de règles (10 heures)

3.1 Patrons fréquents et ensemble d'items fréquents
3.2 Règles d'association (confiance, support et lift)
3.3 Algorithme Apriori
3.4 Évaluation des patrons (Lift, khi 2, mesures nulles invariantes, comparaison des mesures)

4. Techniques non supervisées: groupements (10 heures)

4.1 Critères de groupement, distances inter et intra groupes
4.2 Familles d'algorithmes (modèle, densité, patition, grille, hiérarchique)
4.3 Validation et évaluation (qualité, stabilité, tendance)
4.4 Techniques par partitionnement, hiérarchiques, par densité, par grilles

5. Données textuelles et audio-visuelles et extraction d’information (7 heures)

5.1 Défis et besoins industriels d'analyse des données 
5.2 Préparation des données: types de données, sources, styles, qualité, format
5.3 Choix des caractéristiques pour l'apprentissage machine et problèmes de dimensionnalité
5.4 Réduction des dimensions (analyse factorielle, composantes principales) et analyses de topiques

6. Sujets variés (6 heures)

6.1 Éthique et impacts sociaux
6.2 Forage de séries temporelles (propriétés, décomposition, prédiction, ARIMA)
6.3 Forage de séquences et de graphes

 


[1]  La matière ne sera pas nécessairement présentée dans cet ordre; le contenu de certaines sections couvrant les cours 6 à 13 pourra être modifié afin de mieux s'aligner sur les projets des étudiants du groupe. 

[2]   Ces heures sont des heures approximatives d’enseignement pour chaque sujet et incluent le temps alloué à l’examen.




Laboratoires et travaux pratiques

N/A




Évaluation

Projet de forage (55 %) – Équipe de 2 (exceptionnellement équipe de 3 ou solo) *

Projet personnel de forage : ce projet comprend cinq (5) évaluations, la proposition, le rapport d’étape, le résumé, l'article final et la présentation orale dans un format de type « affiche » devant un public.

proposition (5 % - 8 juin), rapport d’étape (9 % - 6 juillet), résumé (9 % - 22 juillet), article final (20 % - 27 juillet), présentation (12 % - 3 août pour la présentation et 7 août pour l'évaluation par les pairs)

Examen (30 %) – Individuel 

Examen de type « apportez-moi à la maison » portant sur le matériel couvert pendant le cours : durant la semaine cours 12-13.

Exercices de compréhension (15 %) – Individuel

Quatre (4) devoirs couvrant certaines modules du cours (2 %, 4 %, 4%, 5%)

Remarques

  • La qualité du français/anglais sera prise en considération (jusqu'à 10 % de pénalité).
  • Une participation active des étudiants (es) est exigée. Jusqu’à 5 % de la note finale sera retenue pour représenter cette participation.

 


*   La correction de la proposition, du rapport d'étape et du résumé comprend une séance personnalisée de consultation  avec chaque équipe durant  laquelle chaque membre de l'équipe doit être capable de répondre aux questions soulevées. La présentation orale doit faire intervenir chaque membre de l'équipe. 




Double seuil
Note minimale : 60



Date de l'examen final
Votre examen final aura lieu pendant la période des examens finaux, veuillez consulter l'horaire à l'adresse suivante : http://etsmtl.ca/Etudiants-actuels/Baccalaureat/Examens-finaux


Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Dispositions additionnelles

La remise de tous les travaux doit respecter les échéanciers fixés. La correction s’effectuant souvent le jour même de la remise, tout retard entraîne la note zéro.




Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).



Infractions de nature académique
À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page "Citer, pas plagier !" (https://www.etsmtl.ca/Etudes/citer-pas-plagier). Les clauses du règlement sur les infractions de nature académique de l’ÉTS (« Règlement ») s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le règlement sur les infractions de nature académique (https://www.etsmtl.ca/docs/ETS/Gouvernance/Secretariat-general/Cadre-reglementaire/Documents/Infractions-nature-academique) pour identifier les actes qui constituent des infractions de nature académique au sens du Règlement ainsi que prendre connaissance des sanctions prévues à cet effet.

Systèmes d’intelligence artificielle générative (SIAG)
L’utilisation des systèmes d’intelligence artificielle générative (SIAG) dans les activités d’évaluation constitue une infraction de nature académique au sens du Règlement sur les infractions de nature académique, sauf si elle est explicitement autorisée par l’enseignant(e) du cours.



Documentation obligatoire

Il n'y a pas de références obligatoires. Cependant, les étudiants sont tenus de consulter le site Moodle du cours pour y récupérer les lectures obligatoires.

 




Ouvrages de références

AGGARWAL, Charu, C., REDDY, Chandan K. (eds) Data Clustering - Algorithms and Applications. Chapman & Hall/CRC Press, 2014.

COGHLAN, Avril, A Little Book of R for Time Series, 2018. (Disponible en ligne: https://a-little-book-of-r-for-time-series.readthedocs.io/en/latest/)

FELDMAN, Ronen & SANGER, James, The Text Mining Handbook – Advances Approaches in Analyzing Unstructured Data. Cambridge University Press, 2007.

HAN, Jiawei, KAMBER, Micheline, PEI, Jian, Data Mining – Concepts and Techniques. Morgan Kauffmann, 3rd Edition, 2011.

HYNDMAN, Rob J; ATHANASOPOULOS, George, Forecasting: Principles and Practice. 3e édition, Open-access Text Books, 2018 (Disponible en ligne: https://otexts.com/fpp3/).

MANNING, Christopher, RAGHAVAN, Prabhakar & SCHÜTZE, Hinrich, Introduction to Information Retrieval. Cambridge University Press, 2008.

MANNING, Christopher, SCHÜTZE, Hinrich, Foundations of Statistical Natural Language Processing. MIT Press, 1999.

WITTEN, Ian H. & FRANK, Eibe, Data Mining – Practical Machine Learning Tools and Techniques. Morgan Kauffmann, 4e Edition, 2017.




Adresse internet du site de cours et autres liens utiles

Consultez le site Moodle du cours pour la liste complète et constamment mise à jour de tous les outils pertinents. 




Autres informations

Nous utiliserons principalement :