Version PDF

École de technologie supérieure

Responsable(s) de cours :

Eric Paquette

PLAN DE COURS

Hiver 2026
MTI881 : Sujets spéciaux I : technologies de l’information (3 crédits)
Traitement du langage naturel appliqué

Préalables
Aucun préalable requis.

Description du cours
Sujets d'intérêt majeur dans le domaine des technologies de l’information et familiarisation avec les derniers développements technologiques dans un ou plusieurs domaines de pointe. Sujets particuliers dans différentes spécialités du domaine des technologies de l’information. Le sujet proposé peut varier à chaque fois que cette activité est mise à l’horaire.

Stratégies pédagogiques

Cours interactif. Certaines 1/2 plages de cours seront consacrées à de l'accompagnement supervisé pour la réalisation des projets.

Utilisation d’appareils électroniques

Horaire

Groupe	Jour	Heure	Activité
01	Jeudi	13:30 - 17:00	Activité de cours

Coordonnées du personnel enseignant le cours

Groupe	Nom	Activité	Courriel	Local	Disponibilité
01	Sylvie Ratté	Activité de cours	sylvie.ratte@etsmtl.ca	A-4482
01	Pierre-André Ménard	Activité de cours	pierre-andre.menard@etsmtl.ca
01	Pierre-André Ménard	Activité de cours	pierre-andre.menard@etsmtl.ca	A-4486

Cours

1. Introduction au traitement des langues naturelles (3h)

a.   Survol du TLN
b.   Historique et événements significatifs
c.   Ce qui distingue le texte des autres types de données
d.   Criticité/importance des données textuelles en santé
e.   Les tâches : classification, clustering, etc.
f.   Cas d’utilisation du TLN en santé

2. TLN classique et premier modèle (4h)

a.   Chaîne de traitement traditionnelle : jetonisation, racinisation (lemmatisation vs stemming), composantes linguistiques
b.   Processus de développement d’un système : analyse de la problématique, récolte de données, préparation des données, entraînement, analyse des performances,
c.   Acquisition via la parole
d.   Structure de données relatives au TLN : annotations, arbres, etc.

3. Création de corpus (4h)

a.   Récolte de données
b.   Annotation de textes
c.   Accord inter-annotateurs
d.   Protocole d’acquisition
e.   Particularité des vérités terrains de nature textuelle (évaluation non directe 1 à 1)

4. Évaluation des systèmes et des prédictions (5h)

a.   Mesures « standards » : précision, rappel, F-mesure (particularité des mesures pour les textes)
b.   Mesures macro, micro
c.   Mesures spécialisées par tâches et par indicateurs de performance

5. Sémantique et plongement (4h)

a.   Word2vec
b.   Glove
c.   BERT
d.   Plongement de mots, de phrases, de positions
e.   Caractéristiques et avantages des types de plongements

6. Ressources et outils TLN (3h)

a.   Cartographie des données textuelles en santé (influence dans le processus, impact du bon/mauvais traitement)
b.   Ontologies et terminologies (UMLS, SNOMED, etc.)
c.   Techniques pour interagir avec ces ressources (ex. : Metamap proposé par la bibliothèque nationale de médecine aux États-Unis)

7. Modèle de langue 1 (5h)

a.   Évolution des architectures des transformeurs : décodeurs (génératifs, GPT-4), encodeur (BERT), encodeur-décodeur (T5)
b.   Contexte historique derrière ChatGPT
c.   Type de grands modèles de langues (LLM - large language models) et cycles de vie : pré-entraînement, mise au point, inférence
d.   Cas d'utilisation : supervisé, auto-supervisé (self-supervised), apprentissage en-contexte (in-context learning)

8. Modèle de langue 2 (5h)

a.   Rédactique (prompt engineering) : construction, complétions,
b.   Arbitrage (trade-off) entre zero-shot, k-shot, distillation et transfert des connaissances (knowledge distillation), apprentissage en-contexte et la mise au point supervisée
c.   Données synthétiques
d.   Apprentissage par transfert
e.   Adaptation
f.   Distillation, émondage (pruning) et quantification (quantization)
g.   Évaluation de systèmes TLN complexes

9. Considérations éthiques (3h)

a.   Loi 25, Règlement général sur la protection des données (RGPD) : impacts sur les recherches en santé et sur le développement d’applications
b.   Processus du comité d’éthique pour les projets de recherche
c.   La Déclaration de Montréal pour un développement responsable de l'intelligence artificielle (IA)
d.   Biais en TLN
e.   Environnement (ressources, impacts, etc.)
f.   Partage de données
i.   Privatisation
ii.   Catégories officielles
iii.   Tâches associées (anonymisation, dépersonnalisation, déidentification)
g.   Défi de confiance du TLN (et de l’IA en général)

10. Systèmes en santé et intégration du TLN (3h)

a.   Soutien à la décision,
b.   Suivi de littérature scientifique,
c.   Prédiction des risques patients,
d.   Génération de plan de soins et traitement,
e.   Codification des interventions
f.   Analyse de dossiers patients

Évaluation

Informations additionnelles :

Évaluations individuelles (50 %)

1 examen final (30 %)
2 quizz (90 minutes chacun) (20 %)

Évaluations (en équipe) (50 %)

Projet, partie I (20 %): annotations, protocoles et évaluation des accords inter-annotateurs
Projet, partie II (30 %): entraînement de modèles larges et évaluation

Dates des examens intra

Groupe(s)	Date
1	19 février 2026
1	9 avril 2026

Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.5/ cycles supérieurs, article 6.5.2) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignante ou l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Absence à une évaluation

Afin de faire valider une absence à une évaluation en vue d’obtenir un examen de compensation, l’étudiante ou l’étudiant doit utiliser le formulaire prévu à cet effet dans son portail MonÉTS pour un examen final qui se déroule durant la période des examens finaux ou pour tout autre élément d’évaluation surveillé de 15% et plus durant la session. Si l’absence concerne un élément d’évaluation de moins de 15% durant la session, l’étudiant ou l’étudiante doit soumettre une demande par écrit à son enseignante ou enseignant.

Toute demande de validation d’absence doit se faire dans les cinq (5) jours ouvrables suivant la tenue de l’évaluation, sauf dans les cas d’une absence pour participation à une activité prévue aux règlements des études où la demande doit être soumise dans les cinq (5) jours ouvrables avant le jour de départ de l’ÉTS pour se rendre à l’activité.

Toute absence non justifiée par un motif majeur (voir articles 7.2.6.1 du RÉPC et 6.5.2 du RÉCS) entraînera l’attribution de la note zéro (0).

Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiantes et les étudiants doivent consulter le Règlement sur les infractions de nature académique (www.etsmtl.ca/a-propos/gouvernance/secretariat-general/cadre-reglementaire/reglement-sur-les-infractions-de-nature-academique) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet. À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et tous les membres de la communauté étudiante sont invités à consulter la page Citer, pas plagier ! (www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).

Systèmes d’intelligence artificielle générative (SIAG)
L’utilisation des systèmes d’intelligence artificielle générative (SIAG) dans les activités d’évaluation constitue une infraction de nature académique au sens du Règlement sur les infractions de nature académique, sauf si elle est explicitement autorisée par la personne enseignante du cours ou la personne coordonnatrice dans le cas des stages.

Documentation obligatoire

Aucune référence obligatoire.

Ouvrages de références

Les références actualisées seront disponibles sur le site Moodle du cours.

Adresse internet du site de cours et autres liens utiles

Site Moodle.

Autres informations

Ressources

Dataset MIMIC-III : données déidentifiées sur les trajectoires de patients
- https://arxiv.org/pdf/1909.04605
Outils libres et commerciaux en TLN (spacy, stanza, cTakes, john snow lab, etc.)