Logo ÉTS
Session
Cours
Responsable(s) Sylvie Ratté

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Sylvie Ratté


PLAN DE COURS

Été 2020
MTI830 : Forage de textes et de données audiovisuelles (3 crédits)


Pour assurer la tenue de la session d’été 2020 dans le contexte de la pandémie au Covid19, les modalités particulières suivantes devront être appliquées :

  • La session se fera entièrement à distance
  • L’étudiant inscrit à un cours doit avoir accès à un ordinateur, un micro, une caméra et un accès à internet, idéalement de 10Mb/s ou plus.
  • Les examens (intra, finaux) se feront à distance, la surveillance de ces examens se fera à l’aide de la caméra et du micro de l’ordinateur et pourrait être enregistrée. Ceci est nécessaire pour se conformer aux exigences du bureau canadien d’agrément des programmes de génie afin d’assurer la validité des évaluations.

Si vous ne consentez pas aux modalités décrites ci-haut, vous devez vous désinscrire de vos cours avant le 15 mai et vous pourrez être remboursés. En demeurant inscrit, vous acceptez les modalités particulières de la session E20.




Préalables
Aucun préalable requis




Descriptif du cours

À la suite de ce cours, l’étudiant sera en mesure :

  • d’expliquer le fonctionnement des techniques de forage de textes et de données audiovisuelles;
  • de choisir une approche de forage en fonction des besoins de l’application;
  • d’évaluer les approches de techniques de forage.

Introduction à la théorie et aux techniques de forage de textes et de données audiovisuelles. Systèmes de recherche d'information textuelle et de documents audiovisuels; indexation efficace de texte et de documents audiovisuels; espace vectoriel booléen, modèles probabilistes de requête. Documents structurés et non structurés. Taille et diversité des corpus. Discussion sur les métriques d’évaluation et survol des techniques d’agrégation et de classification. Indexation sémantique latente. Évaluation des performances. Visualisation des résultats. Traitement automatique du langage naturel.




Objectifs du cours

Ce cours vise à procurer à l'étudiant(e) une connaissance de niveau intermédiaire des méthodes de forage de données textuelles et audiovisuelles et de leurs applications. Il vise également à faire comprendre les avantages et les limites de ces méthodes.

À la fin du cours, l’étudiant(e) sera en mesure d’expliquer le fonctionnement des techniques de forage de textes et de données audiovisuelles, de choisir une approche de forage en fonction des besoins de l’application et d’évaluer les résultats.

Il (elle) devra également être capable de lire et comprendre des articles scientifiques récents de niveau intermédiaire traitant des techniques de forage et de synthétiser ces connaissances pour ses pairs.

À la fin du cours, il (elle) possèdera une assez bonne connaissance des méthodes existantes. Il (elle) aura conçu et réalisé un mini-projet de forage qu’il (elle) aura consigné dans un rapport technique et présenté en format conférence.




Stratégies pédagogiques
  • 3,5 heures de cours en mode laboratoire interactif. Les documents pertinents (incluant les vidéocasts de la plupart des cours) seront placés au fur et à mesure sur le site Moodle du cours. Il est de la responsabilité de l'étudiant(e) de consulter régulièrement ce site. Selon les besoins, la seconde moitié des cours est dédié au suivi des projets individuels.
  • À partir de la 9e semaine de cours,  nous consacrons plus de temps à la réalisation du projet et son suivi. Afin d’offrir un suivi personnalisé des projets, les cours des semaines 9 et 11 seront transformés en séances de consultation sur mesure qui pourront se dérouler individuellement ou par petits groupes durant la période précitée.

La stratégie pédagogique adoptée se veut participative et centrée sur les projets des étudiants inscrits. Les cours nécessitent l'utilisation d'un ordinateur. Chaque cours débute par une courte introduction du professeur. La durée de cette introduction varie selon le thème abordé. Elle est suivie d'une séance de suivi de projet ou d'une séance d'exercices. 

Le rapport final du projet est présenté en formant « article de conférence ». L’ensemble des rapports constitue le contenu des Actes de la onzième édition de la mini-conférence ÉTS-MINE. Celle-ci se tiendra sous la forme d'une session d'affiches. Les meilleurs articles pourront être soumis à une conférence nationale ou internationale. Dans cette optique, les articles pourront être rédigés en français ou en anglais. 




Utilisation d’appareils électroniques

Il est fortement conseillé d'apporter un ordinateur durant la séance de cours puisque des exercices d'approfondissement sont réalisés durant la séance.




Horaire
Groupe Jour Heure Activité
01 Mercredi 18:00 - 21:30 Activité de cours



Coordonnées de l’enseignant
Groupe Nom Activité Courriel Local Disponibilité
01 Sylvie Ratté Activité de cours Sylvie.Ratte@etsmtl.ca A-4482



Cours

Contenu détaillé[1]

1.    Introduction (3 heures[2])

1.1    Définition du forage : approches descriptives, prédictives et d’agrégation
1.2    Apprentissage machine et forage de données
1.3    Utilisation du forage : analyse des données, prétraitements, choix des approches, évaluation des résultats
1.4 Processus standard intersectoriel pour l'exploration de données

2. Rappel des techniques supervisées (3 heures)

2.1 Classification et prédiction
2.2 Arbres de décision
2.3 Classifieur bayésien
2.4 Plus proches voisins
2.5 Réseaux de neurones

3. Techniques non supervisées: forage de règles (10 heures)

3.1 Patrons fréquents et ensemble d'items fréquents
3.2 Règles d'association (confiance, support et lift)
3.3 Algorithme Apriori
3.4 Évaluation des patrons (Lift, khi 2, mesures nulles invariantes, comparaison des mesures)

4. Techniques non supervisées: groupements (10 heures)

4.1 Critères de groupement, distances inter et intra groupes
4.2 Familles d'algorithmes (modèle, densité, patition, grille, hiérarchique)
4.3 Validation et évaluation (qualité, stabilité, tendance)
4.4 Techniques par partitionnement, hiérarchiques, par densité, par grilles

5. Données textuelles et audio-visuelles et extraction d’information (10 heures)

5.1 Défis et besoins industriels d'analyse des données 
5.2 Préparation des données: types de données, sources, styles, qualité, format
5.3 Choix des caractéristiques pour l'apprentissage machine et problèmes de dimensionnalité
5.4 Réduction des dimensions (analyse factorielle, composantes principales) et analyses de topiques

6. Sujets variés (3 heures)

6.1 Détection de données aberrantes
6.2 Forage des flux de données
6.3 Utilisation à des fins de sécurité et de renforcement de la loi
6.4 Impacts sociaux du forage de données

 


[1]  La matière ne sera pas nécessairement présentée dans cet ordre; le contenu de certaines sections couvrant les cours 6 à 13 pourra être modifié afin de mieux s'aligner sur les projets des étudiants du groupe. 

[2]   Ces heures sont des heures approximatives d’enseignement pour chaque sujet et incluent le temps alloué à l’examen.




Laboratoires et travaux pratiques

N/A




Évaluation

Projet de forage (55 %) – Équipe de 2 au maximum

Projet personnel de forage : ce projet comprend cinq (5) évaluations, la proposition, le rapport d’étape, le résumé, le rapport final et la présentation orale dans un format de type « affiche » devant un public.

proposition (5 % - cours 5), rapport d’étape (9 % - cours 9), résumé* (9 % - cours 11), rapport final (20 % - 2 jours après la présentation), présentation (12 % - durant la dernière semaine de cours)

Examen (30 %) – Individuel

Examen de type « apportez-moi à la maison » portant sur le matériel couvert pendant le cours : durant la semaine cours 12-13.

Exercices de compréhension (15 %) – Individuel

Cinq (5) petits exercices sur la matière vue durant les huit (8) premiers cours.

Remarques

  • La qualité du français/anglais sera prise en considération (jusqu'à 10 % de pénalité).
  • Une participation active des étudiants (es) est exigée. Jusqu’à 5% de la note finale sera retenue pour représenter cette participation.

 


*   Les résumés jugés déficients devront être modifiés (max. 2 jours avant les présentations) car ils serviront à publiciser la conférence.




Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Dispositions additionnelles

La remise de tous les travaux doit respecter les échéanciers fixés. La correction s’effectuant souvent le jour même de la remise, tout retard entraîne la note zéro.




Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).



Plagiat et fraude
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le Règlement sur les infractions de nature académique (https://www.etsmtl.ca/docs/ETS/Gouvernance/Secretariat-general/Cadre-reglementaire/Documents/Infractions-nature-academique ) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet.  À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page Citer, pas plagier ! (https://www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).



Documentation obligatoire

Il n'y a pas de références obligatoires. Cependant, les étudiants sont tenus de consulter le site Moodle du cours pour y récupérer les lectures obligatoires.

 




Ouvrages de références

AGGARWAL, Charu, C., REDDY, Chandan K. (eds) Data Clustering - Algorithms and Applications. Chapman & Hall/CRC Press, 2014.

FELDMAN, Ronen & SANGER, James, The Text Mining Handbook – Advances Approaches in Analyzing Unstructured Data. Cambridge University Press, 2007.

*HAN, Jiawei, KAMBER, Micheline, PEI, Jian, Data Mining – Concepts and Techniques. Morgan Kauffmann, 3rd Edition, 2011.

MANNING, Christopher, RAGHAVAN, Prabhakar & SCHÜTZE, Hinrich, Introduction to Information Retrieval. Cambridge University Press, 2008.

*MANNING, Christopher, SCHÜTZE, Hinrich, Foundations of Statistical Natural Language Processing. MIT Press, 1999.

*WITTEN, Ian H. & FRANK, Eibe, Data Mining – Practical Machine Learning Tools and Techniques. Morgan Kauffmann, 4e Edition, 2017.




Adresse internet du site de cours et autres liens utiles

Consultez le site Moodle du cours pour la liste complète et constamment mise à jour de tous les outils pertinents. 




Autres informations

Nous utiliserons principalement :