1. Introduction au traitement des langues naturelles (3h)
a. Survol du TLN
b. Historique et événements significatifs
c. Ce qui distingue le texte des autres types de données
d. Criticité/importance des données textuelles en santé
e. Les tâches : classification, clustering, etc.
f. Cas d’utilisation du TLN en santé
2. TLN classique et premier modèle (4h)
a. Chaîne de traitement traditionnelle : jetonisation, racinisation (lemmatisation vs stemming), composantes linguistiques
b. Processus de développement d’un système : analyse de la problématique, récolte de données, préparation des données, entraînement, analyse des performances,
c. Acquisition via la parole
d. Structure de données relatives au TLN : annotations, arbres, etc.
3. Création de corpus (4h)
a. Récolte de données
b. Annotation de textes
c. Accord inter-annotateurs
d. Protocole d’acquisition
e. Particularité des vérités terrains de nature textuelle (évaluation non directe 1 à 1)
4. Évaluation des systèmes et des prédictions (5h)
a. Mesures « standards » : précision, rappel, F-mesure (particularité des mesures pour les textes)
b. Mesures macro, micro
c. Mesures spécialisées par tâches et par indicateurs de performance
5. Sémantique et plongement (4h)
a. Word2vec
b. Glove
c. BERT
d. Plongement de mots, de phrases, de positions
e. Caractéristiques et avantages des types de plongements
6. Ressources et outils TLN (3h)
a. Cartographie des données textuelles en santé
i. Influence dans le processus
ii. Impact du bon/mauvais traitement
b. Ontologies et terminologies (UMLS, SNOMED, etc)
c. Techniques pour interagir avec ces ressources (ex: Metamap proposé par la bibliothèque nationale de médecine aux États-Unis)
7. Modèle de langue 1 (5h)
a. Évolution des architectures des transformeurs : décodeurs (génératifs, GPT-4), encodeur (BERT), encodeur-décodeur (T5)
b. Contexte historique derrière ChatGPT
c. Type de grands modèles de langues (LLM- large language models) et cycles de vie : pré-entraînement, mise au point, inférence
d. Cas d'utilisation : supervisé, auto-supervisé (self-supervised), apprentissage en-contexte (in-context learning)
8. Modèle de langue 2 (5h)
a. Rédactique (prompt engineering) : construction, complétions,
b. Arbitrage (trade-off) entre zero-shot, k-shot, distillation et transfert des connaissances (knowledge distillation), apprentissage en-contexte et la mise au point supervisée
c. Données synthétiques
d. Apprentissage par transfert
e. Adaptation
f. Distillation, émondage (pruning) et quantification (quantization)
g. Évaluation de systèmes TLN complexes
9. Considérations éthiques (3h)
a. Loi 25, Règlement général sur la protection des données (RGPD) : impacts sur les recherches en santé et sur le développement d’applications
b. Processus du comité d’éthique pour les projets de recherche
c. La Déclaration de Montréal pour un développement responsable de l'intelligence artificielle (IA)
d. Biais en TLN
e. Environnement (ressources, impacts, etc.)
f. Partage de données
i. Privatisation
ii. Catégories officielles
iii. Tâches associées (anonymisation, dépersonnalisation, déidentification)
g. Défi de confiance du TLN (et de l’IA en général)
10. Systèmes en santé et intégration du TLN (3h)
a. Soutien à la décision,
b. Suivi de littérature scientifique,
c. Prédiction des risques patients,
d. Génération de plan de soins et traitement,
e. Codification des interventions
f. Analyse de dossiers patients