Contenu

Cours

3h	Présentation du domaine Modules linguistiques : Morphologie, syntaxe et sémantique Types de textes : problèmes, outils, approches (e.g., tweet vs Word vs pdf vs transcripts vs clinique vs…) Pipeline TALN et tâches Préparation des textes et similarité Caractéristiques et valeurs : tf, idf, tf-idf, BM25 Représentation vectorielle et normalisation Calcul de similarité
3h	Traitement des textes cliniques Caractéristiques des textes cliniques Classifications médicales et terminologies Métriques d’évaluation Pipeline pour le traitement des textes cliniques Généralisation du pipeline pour d’autres types de textes
3h	Factorisation matricielle et modélisation par sujets (topic modeling) Décomposition en valeurs singulières (SVD/LSA) Factorisation matricielle non négative (NMF) Analyse sémantique latente probabiliste (pLSA) Survol de l’allocation latente de Dirichlet (LDA) Transformations non linéaires et ingénierie des caractéristiques
3h	Agrégation de textes (clustering) Choix de caractéristiques Topique et Factorisation Modèle génératif de mélange Algorithmes de clustering sur du texte Clustering de textes comme des séquences
3h	Opinions et analyse de sentiments Lexique d’opinions et de sentiments Classification des sentiments au niveau du document Classification des sentiments au niveau des phrases Résumé de textes Résumés extractifs Méthode par topic et méthode latente Application de l’apprentissage machine
6h	Modèles par séquences et apprentissage profond Modèles de langue statistiques Modèle matricielle de factorisation du contexte des mots Représentation graphique des distances entre les mots Modèle de langue neuronal Réseaux de neurones récurrents
3h	Traitement du signal Éléments du signal audio dans le domaine temporel et fréquentiel Échantillonnage et quantification du signal Transformation du signal dans le domaine fréquentiel Lecture du spectre et du spectrogramme
3h	Traitement du signal de la parole Éléments de systèmes RAPs Encodage du signal, extraction des caractéristiques audio Lecture du spectrogramme pour la reconnaissance des voyelles et consonnes
3h	Modèle de langage (ML) modélisation de la probabilité de séquence de mots Estimation des n-grammes p(w\|historique) / bigrammes / trigrammes Qualité du modèle de langage, facteur de branchement, perplexité Lissage et modèle de langage interpolé, modèle Backoff
3h	Base des systèmes d'apprentissage Éléments de systèmes d'apprentissage : objectifs (classification, régression), complexité, validation. Application à la reconnaissance de la parole, problématique Fonctions de densité de probabilité, estimation par maximum de vraisemblance (MLE) Mixture de gaussiennes GMM.
6h	Systèmes d'apprentissage et applications Modèle de Markov cachée (HMM) Perceptron, réseaux de neurones multicouche (MLP), profond (DNN), convolutionnels (CNN) Reconnaissance d'émotions

Cours

Laboratoires et travaux pratiques