Logo ÉTS
Session
Cours
Responsable(s) Pierre André Ménard, Sylvie Ratté, Eric Paquette

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement
École de technologie supérieure

Responsable(s) de cours : Pierre André Ménard, Sylvie Ratté, Eric Paquette


PLAN DE COURS

Hiver 2025
MTI881 : Sujets spéciaux I : technologies de l’information (3 crédits)
Traitement du langage naturel appliqué





Préalables
Aucun préalable requis




Descriptif du cours
Sujets d'intérêt majeur dans le domaine des technologies de l’information et familiarisation avec les derniers développements technologiques dans un ou plusieurs domaines de pointe. Sujets particuliers dans différentes spécialités du domaine des technologies de l’information. Le sujet proposé peut varier à chaque fois que cette activité est mise à l’horaire.



Objectifs du cours

Ce cours présente une exploration approfondie des techniques modernes de traitement du langage naturel (NLP), des ressources disponibles, des différentes notions associées à la réalisation de projets et de leurs applications.

Au terme de ce cours, l'étudiante ou l'étudiant sera en mesure de : choisir les outils et les traitements nécessaires pour résoudre un problème d’analyse automatique de textes; concevoir un système adapté au contexte; vérifier et valider des modèles; interpréter et expliquer les résultats de modèles complexes; évaluer les enjeux et impacts éthiques posés par un projet en TLN.

Les sujets abordés incluent : historique du domaine; composantes du langage; tâches et chaîne de traitement; structures de données adaptées; plongements; théorie approfondie des architectures neuronales. Les activités spécifiques associées aux projets en TLN sont également couvertes : gestion de corpus, évaluation, ressources, considérations éthiques.




Stratégies pédagogiques

Cours interactif. Certaines 1/2 plages de cours seront consacrées à de l'accompagnement supervisé pour la réalisation des projets.




Horaire
Groupe Jour Heure Activité
01 Jeudi 13:30 - 17:00 Activité de cours



Coordonnées du personnel enseignant le cours
Groupe Nom Activité Courriel Local Disponibilité
01 Sylvie Ratté Activité de cours Sylvie.Ratte@etsmtl.ca A-4482
01 Pierre André Ménard Activité de cours pierre-andre.menard@etsmtl.ca



Cours

1.    Introduction au traitement des langues naturelles (3h)

a.    Survol du TLN 
b.    Historique et événements significatifs
c.    Ce qui distingue le texte des autres types de données
d.    Criticité/importance des données textuelles en santé
e.    Les tâches : classification, clustering, etc.
f.    Cas d’utilisation du TLN en santé

2.    TLN classique et premier modèle (4h)

a.    Chaîne de traitement traditionnelle : jetonisation, racinisation (lemmatisation vs stemming), composantes linguistiques
b.    Processus de développement d’un système : analyse de la problématique, récolte de données, préparation des données, entraînement, analyse des performances,
c.    Acquisition via la parole
d.    Structure de données relatives au TLN : annotations, arbres, etc.

3.    Création de corpus (4h)

a.    Récolte de données
b.    Annotation de textes
c.    Accord inter-annotateurs
d.    Protocole d’acquisition
e.    Particularité des vérités terrains de nature textuelle (évaluation non directe 1 à 1)
4.    Évaluation des systèmes et des prédictions (5h)
a.    Mesures « standards » : précision, rappel, F-mesure (particularité des mesures pour les textes)
b.    Mesures macro, micro
c.    Mesures spécialisées par tâches et par indicateurs de performance

5.    Sémantique et plongement (4h)

a.    Word2vec
b.    Glove
c.    BERT
d.    Plongement de mots, de phrases, de positions
e.    Caractéristiques et avantages des types de plongements

6.    Ressources et outils TLN (3h)

a.    Cartographie des données textuelles en santé
i.    Influence dans le processus
ii.    Impact du bon/mauvais traitement
b.    Ontologies et terminologies (UMLS, SNOMED, etc)
c.    Techniques pour interagir avec ces ressources (ex: Metamap proposé par la bibliothèque nationale de médecine aux États-Unis)

7.    Modèle de langue 1 (5h) 

a.    Évolution des architectures des transformeurs : décodeurs (génératifs, GPT-4), encodeur (BERT), encodeur-décodeur (T5)
b.    Contexte historique derrière ChatGPT
c.    Type de grands modèles de langues (LLM- large language models) et cycles de vie : pré-entraînement, mise au point, inférence
d.    Cas d'utilisation : supervisé, auto-supervisé (self-supervised), apprentissage en-contexte (in-context learning)

8.    Modèle de langue 2 (5h)

a.    Rédactique (prompt engineering) : construction, complétions, 
b.    Arbitrage (trade-off) entre zero-shot, k-shot, distillation et transfert des connaissances (knowledge distillation), apprentissage en-contexte et la mise au point supervisée
c.    Données synthétiques
d.    Apprentissage par transfert
e.    Adaptation
f.    Distillation, émondage (pruning) et quantification (quantization)
g.    Évaluation de systèmes TLN complexes

9.    Considérations éthiques (3h)

a.    Loi 25, Règlement général sur la protection des données (RGPD) : impacts sur les recherches en santé et sur le développement d’applications
b.    Processus du comité d’éthique pour les projets de recherche
c.    La Déclaration de Montréal pour un développement responsable de l'intelligence artificielle (IA)
d.    Biais en TLN
e.    Environnement (ressources, impacts, etc.)
f.    Partage de données
i.    Privatisation
ii.    Catégories officielles
iii.    Tâches associées (anonymisation, dépersonnalisation, déidentification)
g.    Défi de confiance du TLN (et de l’IA en général)

10.    Systèmes en santé et intégration du TLN (3h)

a.    Soutien à la décision, 
b.    Suivi de littérature scientifique, 
c.    Prédiction des risques patients, 
d.    Génération de plan de soins et traitement, 
e.    Codification des interventions
f.    Analyse de dossiers patients
 




Évaluation
  • 1 examen final (40%)
  • 2 quizz (90 minutes chacun) (10%)
  • Projet, partie I (20%): annotations, protocoles et évaluation des accords inter-annotateurs
  • Projet, partie II (30%): entraînement de modèles larges et évaluation



Double seuil
Note minimale : 60



Date de l'examen final
Votre examen final aura lieu pendant la période des examens finaux, veuillez consulter l'horaire à l'adresse suivante : https://www.etsmtl.ca/programmes-et-formations/horaire-des-examens-finaux


Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.5/ cycles supérieurs, article 6.5.2) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignante ou l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.



Absence à une évaluation

Afin de faire valider une absence à une évaluation en vue d’obtenir un examen de compensation, l’étudiante ou l’étudiant doit utiliser le formulaire prévu à cet effet dans son portail MonÉTS pour un examen final qui se déroule durant la période des examens finaux ou pour tout autre élément d’évaluation surveillé de 15% et plus durant la session. Si l’absence concerne un élément d’évaluation de moins de 15% durant la session, l’étudiant ou l’étudiante doit soumettre une demande par écrit à son enseignante ou enseignant.

Toute demande de validation d’absence doit se faire dans les cinq (5) jours ouvrables suivant la tenue de l’évaluation, sauf dans les cas d’une absence pour participation à une activité prévue aux règlements des études où la demande doit être soumise dans les cinq (5) jours ouvrables avant le jour de départ de l’ÉTS pour se rendre à l’activité.

Toute absence non justifiée par un motif majeur (voir articles 7.2.6.1 du RÉPC et 6.5.2 du RÉCS) entraînera l’attribution de la note zéro (0).




Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiantes et les étudiants doivent consulter le Règlement sur les infractions de nature académique (www.etsmtl.ca/a-propos/gouvernance/secretariat-general/cadre-reglementaire/reglement-sur-les-infractions-de-nature-academique) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet. À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et tous les membres de la communauté étudiante sont invités à consulter la page Citer, pas plagier ! (www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).

Systèmes d’intelligence artificielle générative (SIAG)
L’utilisation des systèmes d’intelligence artificielle générative (SIAG) dans les activités d’évaluation constitue une infraction de nature académique au sens du Règlement sur les infractions de nature académique, sauf si elle est explicitement autorisée par l’enseignante ou l’enseignant du cours.



Documentation obligatoire

Aucune référence obligatoire.




Ouvrages de références

Les références actualisées seront disponibles sur le site Moodle du cours.




Adresse internet du site de cours et autres liens utiles

Site Moodle.




Autres informations

Ressources

  • Dataset MIMIC-III : données déidentifiées sur les trajectoires de patients
  • Outils libres et commerciaux en TLN (spacy, stanza, cTakes, john snow lab, etc.)