Logo ÉTS
Session
Cours
Responsable(s) Sylvie Ratté

Se connecter
 

École de technologie supérieure
Département de génie logiciel et des TI
Responsable(s) de cours : Sylvie Ratté


PLAN DE COURS

Été 2019
MTI830 : Forage de textes et de données audiovisuelles (3 crédits)



Préalables
Aucun préalable requis




Descriptif du cours
À la suite de ce cours, l’étudiant(e) sera en mesure :
• d’expliquer le fonctionnement des techniques de forage de textes et de données audiovisuelles;
• de choisir une approche de forage en fonction des besoins de l’application;
• d’évaluer les approches de techniques de forage.

Introduction à la théorie et aux techniques de forage de textes et de données audiovisuelles. Systèmes de recherche d'information textuelle et de documents audiovisuels; indexation efficace de texte et de documents audiovisuels; espace vectoriel booléen, modèles probabilistes de requête. Documents structurés et non structurés. Taille et diversité des corpus. Discussion sur les métriques d’évaluation et survol des techniques d’agrégation et de classification. Indexation sémantique latente. Évaluation des performances. Visualisation des résultats. Traitement automatique du langage naturel.



Objectifs du cours

Ce cours vise à procurer à l'étudiant(e) une connaissance de niveau intermédiaire des méthodes de forage de données textuelles et audiovisuelles et de leurs applications. Il vise également à faire comprendre les avantages et les limites de ces méthodes.

À la fin du cours, l’étudiant(e) sera en mesure d’expliquer le fonctionnement des techniques de forage de textes et de données audiovisuelles, de choisir une approche de forage en fonction des besoins de l’application et d’évaluer les résultats.

Il (elle) devra également être capable de lire et comprendre des articles scientifiques récents de niveau intermédiaire traitant des techniques de forage et de synthétiser ces connaissances pour ses pairs.

À la fin du cours, il (elle) possèdera une assez bonne connaissance des méthodes existantes. Il (elle) aura conçu et réalisé un mini-projet de forage qu’il (elle) aura consigné dans un rapport technique et présenté en format conférence.




Stratégies pédagogiques
  • 3,5 heures de cours en mode laboratoire interactif. Les documents pertinents (incluant les vidéocasts de la plupart des cours) seront placés au fur et à mesure sur le site Moodle du cours. Il est de la responsabilité de l'étudiant(e) de consulter régulièrement ce site.
  • À partir de la 9ème semaine de cours,  nous consacrons plus de temps à la réalisation du projet et son suivi. Afin d’offrir un suivi personnalisé des projets, les cours des semaines 9 et 11 seront transformés en séances de consultation sur mesure qui pourront se dérouler individuellement ou par petits groupes durant la période précitée.

La stratégie pédagogique adoptée se veut participative et centrée sur les projets des étudiants inscrits. Les cours nécessitent l'utilisation d'un ordinateur. Chaque cours débute par une courte introduction du professeur. La durée de cette introduction varie selon le thème abordé. Elle est suivie d’un ou plusieurs exercices (à réaliser en équipe ou individuellement) présenté(s) sous la forme de petits problèmes. Les exercices sont choisis en fonction du thème mais aussi en fonction des projets des étudiants. Certains exercices sont notés.

Le rapport final du projet est présenté en formant « article de conférence ». L’ensemble des rapports constitue le contenu des Actes de la septième édition de la mini-conférence ÉTS-MINE. Les meilleurs articles pourront être soumis à une conférence nationale ou internationale. Dans cette optique, les articles pourront être rédigés en français ou en anglais.




Utilisation d’appareils électroniques

Il est fortement conseillé d'apporter un ordinateur durant la séance de cours puisque des exercices d'approfondissement sont réalisés durant la séance.




Horaire
Groupe Jour Heure Activité
01 Mardi 18:00 - 21:30 Activité de cours



Coordonnées de l’enseignant
Groupe Nom Activité Courriel Local Disponibilité
01 Sylvie Ratté Activité de cours Sylvie.Ratte@etsmtl.ca A-4482



Cours

Contenu détaillé[1]

1.    Introduction (3 heures[2])

  1.1    Définition du forage : approches descriptives, prédictives et d’agrégation

  • 1.2    Utilisation du forage : analyse des données, prétraitements, choix des approches, évaluation des résultats

 

2.    Techniques de forage (10 heures)

2.1    Patrons, associations et corrélations (ensemble d’items fréquents, règles d’association, etc.)

2.2    Classification et prédiction (arbre de décision, classifieur bayésien, etc.)

2.3    Analyse par agrégation (types de données, distances, méthode par partition, par hiérarchies, par densité, etc.)

2.4    Évaluation des résultats des classifieurs et des agrégateurs.

3.    Forage de textes et extraction d’information (10 heures)

3.1    Analyse des données textuelles et extraction d’information

3.2    Dimensionnalité,  indexation sémantique latente, allocation latente de Dirichle

3.3    Classification et agrégation automatique de documents

3.4    Analyse des langues naturelles

4.    Forage du Web (6 heures)

4.1    Forage de la structure

4.2    Forage des données multimédias (audio, image, vidéo)

4.3    Classification automatique de documents Web

4.4    Forage des flux de données

5.    Sélection des attributs (7 heures)

5.1    Identification et utilisation des données atypiques (« outliers »)

5.2    Analyse factorielle des correspondances – AFC

5.3    Analyse des composantes principales – ACC

5.4    Techniques de régression

6.    Compléments et techniques particulières (3 heures)

6.1    Méthodes avancées d’agrégation (« clustering »)

6.2    Forage de données spécialisées : télécommunication, biologie, intrusion, etc.)

6.3    Utilisation à des fins de sécurité et de renforcement de la loi

6.4    Impacts sociaux du forage de données

 


[1]  La matière ne sera pas nécessairement présentée dans cet ordre; le contenu de certaines sections couvrant les cours 6 à 13 pourra être modifié afin de mieux s'aligner sur les projets des étudiants du groupe. 

[2]   Ces heures sont des heures approximatives d’enseignement pour chaque sujet et incluent le temps alloué à l’examen.




Laboratoires et travaux pratiques

N/A




Évaluation

Projet de forage (55 %) – Équipe de 2 au maximum

Projet personnel de forage : ce projet comprend cinq (5) évaluations, la proposition, le rapport d’étape, le résumé, le rapport final et la présentation orale dans un format de type « conférence » devant un public.

proposition (5 % - cours 5), rapport d’étape (9 % - cours 9), résumé* (9 % - cours 11), rapport final (20 % - 2 jours après la présentation), présentation (12 % - durant les deux dernières semaines de cours)

 

Examen (30 %) – Individuel

Examen de type « apportez-moi à la maison » portant sur le matériel couvert pendant le cours : durant la semaine cours 12-13.

 

Exercices de compréhension (15 %) – Individuel

Cinq (5) petits exercices sur la matière vue durant les huit (8) premiers cours.

 

Remarques

  • La qualité du français/anglais sera prise en considération (jusqu'à 10 % de pénalité).
  • Une participation active des étudiants (es) est exigée. Jusqu’à 5% de la note finale sera retenue pour représenter cette participation.

 


*   Les résumés jugés déficients devront être modifiés (max. 2 jours avant la conférence) car ils serviront à publiciser la conférence.




Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Dispositions additionnelles

La remise de tous les travaux doit respecter les échéanciers fixés. La correction s’effectuant souvent le jour même de la remise, tout retard entraîne la note ZÉRO.




Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).



Plagiat et fraude
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le Règlement sur les infractions de nature académique (https://www.etsmtl.ca/A-propos/Direction/Politiques-reglements/Infractions_nature_academique.pdf ) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet.  À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page Citer, pas plagier ! (https://www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).



Documentation obligatoire

Il n'y a pas de références obligatoires. Cependant, les étudiants sont tenus de consulter le site Moodle du cours pour y récupérer les lectures obligatoires.

 




Ouvrages de références

AGGARWAL, Charu C., ZHAI, ChengXaing (eds) Mining Text Data. Springer, 2012.

AGGARWAL, Charu, C., REDDY, Chandan K. (eds) Data Clustering - Algorithms and Applications. Chapman & Hall/CRC Press, 2014.

BERRY, Michael W. (ed.) Survey of Text Mining – Clustering, Classification, and Retrieval. Springer, 2004.

FELDMAN, Ronen & SANGER, James, The Text Mining Handbook – Advances Approaches in Analyzing Unstructured Data. Cambridge University Press, 2007.

HALLIMAN, Charles, Business Intelligence Using Smart Techniques. Information Uncover, 2006.

HAN, Jiawei & KAMBER, Micheline, Data Mining – Concepts and Techniques. Morgan Kauffmann, 2nd Edition, 2006.

KAO, Anne & POTEET, Stephen R. (eds.), Natural Language Processing and Text Mining. Springer, 2007.

MANNING, Christopher, RAGHAVAN, Prabhakar & SCHÜTZE, Hinrich, Introduction to Information Retrieval. Cambridge University Press, 2008.

MANNING, Christopher, SCHÜTZE, Hinrich, Foundations of Statistical Natural Language Processing. MIT Press, 1999.

MILLER, Thomas, W., Data and Text Mining – A Business Applications Approach. Prentice-Hall, 2005.

WEISS, Sholom M., INDURKHYA, Nitin, ZHANG, Tong & DAMERAU, Fred J., Text Mining – Predictive Methods for Analyzing Unstructured Information. Springer, 2005.

WITTEN, Ian H. & FRANK, Eibe, Data Mining – Practical Machine Learning Tools and Techniques. Morgan Kauffmann, 2nd Edition, 2005.




Adresse internet du site de cours et autres liens utiles

Consultez le site Moodle du cours pour la liste complète et constamment mise à jour de tous les outils pertinents. 




Autres informations

Nous utiliserons principalement :

 

Les environnements suivants pourront être mis à contribution :

 

Tout logiciel qui facilite la visualisation d’information complexe :

 

Yed (http://www.yworks.com/) Graph Edior.