Logo ÉTS
Session
Cours
Responsable(s) Patrick Cardinal

Se connecter
 

Sauvegarde réussie
Echec de sauvegarde
Avertissement





Cours

 

3h Présentation du domaine
  1. Modules linguistiques : Morphologie, syntaxe et sémantique
  2. Types de textes : problèmes, outils, approches (e.g., tweet vs Word vs pdf vs transcripts vs clinique vs…)
  3. Pipeline TALN et tâches
Préparation des textes et similarité
  1. Caractéristiques et valeurs : tf, idf, tf-idf, BM25
  2. Représentation vectorielle et normalisation
  3. Calcul de similarité

3h

Traitement des textes cliniques

  1. Caractéristiques des textes cliniques
  2. Classifications médicales et terminologies
  3. Métriques d’évaluation
  4. Pipeline pour le traitement des textes cliniques
  5. Généralisation du pipeline pour d’autres types de textes

3h

Factorisation matricielle et modélisation par sujets (topic modeling)

  1. Décomposition en valeurs singulières (SVD/LSA)
  2. Factorisation matricielle non négative (NMF)
  3. Analyse sémantique latente probabiliste (pLSA)
  4. Survol de l’allocation latente de Dirichlet (LDA)
  5. Transformations non linéaires et ingénierie des caractéristiques

3h

Agrégation de textes (clustering)

  1. Choix de caractéristiques
  2. Topique et Factorisation
  3. Modèle génératif de mélange
  4. Algorithmes de clustering sur du texte
  5. Clustering de textes comme des séquences

3h

Opinions et analyse de sentiments

  1. Lexique d’opinions et de sentiments
  2. Classification des sentiments au niveau du document
  3. Classification des sentiments au niveau des phrases

Résumé de textes

  1. Résumés extractifs
  2. Méthode par topic et méthode latente
  3. Application de l’apprentissage machine

6h

Modèles par séquences et apprentissage profond

  1. Modèles de langue statistiques
  2. Modèle matricielle de factorisation du contexte des mots
  3. Représentation graphique des distances entre les mots
  4. Modèle de langue neuronal
  5. Réseaux de neurones récurrents

3h

Traitement du signal

  1. Éléments du signal audio dans le domaine temporel et fréquentiel 
  2. Échantillonnage et quantification du signal
  3. Transformation du signal dans le domaine fréquentiel
  4. Lecture du spectre et du spectrogramme

3h

Traitement du signal de la parole

  1. Éléments de systèmes RAPs
  2. Encodage du signal, extraction des caractéristiques audio
  3. Lecture du spectrogramme pour la reconnaissance des voyelles et consonnes

3h

Modèle de langage (ML) modélisation de la probabilité de séquence de mots

  1. Estimation des n-grammes p(w|historique) / bigrammes / trigrammes
  2. Qualité du modèle de langage, facteur de branchement, perplexité
  3. Lissage et modèle de langage interpolé, modèle Backoff

3h

Base des systèmes d'apprentissage

  1. Éléments de systèmes d'apprentissage : objectifs (classification, régression), complexité, validation. 
  2. Application à la reconnaissance de la parole, problématique
  3. Fonctions de densité de probabilité, estimation par maximum de vraisemblance (MLE)
  4. Mixture de gaussiennes GMM.  

6h

Systèmes d'apprentissage et applications 

  1. Modèle de Markov cachée (HMM)
  2. Perceptron, réseaux de neurones multicouche (MLP), profond (DNN), convolutionnels (CNN) 
  3. Reconnaissance d'émotions