3h |
Présentation du domaine
- Modules linguistiques : Morphologie, syntaxe et sémantique
- Types de textes : problèmes, outils, approches (e.g., tweet vs Word vs pdf vs transcripts vs clinique vs…)
- Pipeline TALN et tâches
Préparation des textes et similarité
- Caractéristiques et valeurs : tf, idf, tf-idf, BM25
- Représentation vectorielle et normalisation
- Calcul de similarité
|
3h
|
Traitement des textes cliniques
- Caractéristiques des textes cliniques
- Classifications médicales et terminologies
- Métriques d’évaluation
- Pipeline pour le traitement des textes cliniques
- Généralisation du pipeline pour d’autres types de textes
|
3h
|
Factorisation matricielle et modélisation par sujets (topic modeling)
- Décomposition en valeurs singulières (SVD/LSA)
- Factorisation matricielle non négative (NMF)
- Analyse sémantique latente probabiliste (pLSA)
- Survol de l’allocation latente de Dirichlet (LDA)
- Transformations non linéaires et ingénierie des caractéristiques
|
3h
|
Agrégation de textes (clustering)
- Choix de caractéristiques
- Topique et Factorisation
- Modèle génératif de mélange
- Algorithmes de clustering sur du texte
- Clustering de textes comme des séquences
|
3h
|
Opinions et analyse de sentiments
- Lexique d’opinions et de sentiments
- Classification des sentiments au niveau du document
- Classification des sentiments au niveau des phrases
Résumé de textes
- Résumés extractifs
- Méthode par topic et méthode latente
- Application de l’apprentissage machine
|
6h
|
Modèles par séquences et apprentissage profond
- Modèles de langue statistiques
- Modèle matricielle de factorisation du contexte des mots
- Représentation graphique des distances entre les mots
- Modèle de langue neuronal
- Réseaux de neurones récurrents
|
3h
|
Traitement du signal
- Éléments du signal audio dans le domaine temporel et fréquentiel
- Échantillonnage et quantification du signal
- Transformation du signal dans le domaine fréquentiel
- Lecture du spectre et du spectrogramme
|
3h
|
Traitement du signal de la parole
- Éléments de systèmes RAPs
- Encodage du signal, extraction des caractéristiques audio
- Lecture du spectrogramme pour la reconnaissance des voyelles et consonnes
|
3h
|
Modèle de langage (ML) modélisation de la probabilité de séquence de mots
- Estimation des n-grammes p(w|historique) / bigrammes / trigrammes
- Qualité du modèle de langage, facteur de branchement, perplexité
- Lissage et modèle de langage interpolé, modèle Backoff
|
3h
|
Base des systèmes d'apprentissage
- Éléments de systèmes d'apprentissage : objectifs (classification, régression), complexité, validation.
- Application à la reconnaissance de la parole, problématique
- Fonctions de densité de probabilité, estimation par maximum de vraisemblance (MLE)
- Mixture de gaussiennes GMM.
|
6h
|
Systèmes d'apprentissage et applications
- Modèle de Markov cachée (HMM)
- Perceptron, réseaux de neurones multicouche (MLP), profond (DNN), convolutionnels (CNN)
- Reconnaissance d'émotions
|