Version PDF

Afficher les cours préalables

Afficher les qualités de l'ingénieur

École de technologie supérieure

Responsable(s) de cours :

Patrick Cardinal

PLAN DE COURS

Été 2022
MTI815 : Systèmes de communication vocale (3 crédits)

Modalités de la session d’été 2022

Vous trouverez ci-dessous les modalités de la session d’été 2022. Vous devez les lire attentivement.

Pour assurer la tenue de la session d’été 2022, les modalités suivantes seront appliquées :

Les activités d’enseignement de la session d’été 2022 comprendront des activités en présence et à distance, lesquelles seront ajustées en fonction de l’évolution de la situation socio-sanitaire.
Pour les cours (ou séances de cours) donnés à distance, l’étudiant doit avoir accès à un ordinateur, un micro, une caméra et un accès à internet, idéalement de 10Mb/s ou plus. L’étudiant doit ouvrir sa caméra et/ou son micro lorsque requis, notamment pour des fins d’identification ou d’évaluation.
Les cours (ou séances de cours) donnés à distance pourraient être enregistrés, afin de les rendre disponibles aux étudiants inscrits au cours.
La notation des cours sera la notation régulière prévue aux règlements des études de l’ÉTS.
Les examens (intra, finaux) se feront en présence, tant que la situation socio-sanitaire le permet.
Le contexte actuel oblige bien sûr l’ÉTS à suivre de près l’évolution de la pandémie de COVID-19, laquelle pourrait entraîner, avant ou après le début de la session d’été 2022, un resserrement des directives et recommandations gouvernementales. Nous vous assurons que l’ÉTS se conformera aux règles en vigueur afin de préserver la santé publique et que, si requis, elle pourrait aller jusqu’à interdire l’accès physique au campus universitaire et ordonner que toutes les activités d’enseignement et d’évaluation soient exclusivement données à distance pour tout ou partie de la session d’été 2022. Ainsi, si les examens (intra, finaux) devaient se faire à distance, leur surveillance se fera à l’aide de la caméra et du micro de l’ordinateur et pourrait être enregistrée. Ceci est nécessaire pour se conformer aux exigences du Bureau canadien d’agrément des programmes de génie (BCAPG) afin d’assurer la validité des évaluations.
Des exigences additionnelles pourraient être spécifiées par l’ÉTS ou votre département, suivant les particularités propres à votre programme.

En vous inscrivant ou en demeurant inscrit à la session d’été 2022, vous acceptez les modalités particulières de la session d’été 2022.

Nous vous rappelons que vous avez jusqu’au 17 mai 2022 pour vous désinscrire de vos cours et être remboursé.

Pour les nouveaux étudiants inscrits au programme de baccalauréat uniquement, vous avez jusqu’au 31 mai 2022 pour vous désinscrire de vos cours et être remboursé.

Préalables
Aucun préalable requis

Descriptif du cours
Au terme de ce cours, l’étudiante ou l’étudiant sera en mesure :
• d’expliquer le fonctionnement des systèmes de communication vocale;
• de choisir un système de communication vocale en fonction des besoins;
• d’évaluer les systèmes de communication vocale.

Communication vocale par ordinateur. Modes de production et de perception de la parole. Fonctionnement des ordinateurs afin de compresser, encoder, synthétiser et reconnaître le signal de la parole. Techniques d’encodage (PCM, ADPCM, LPC, ACELP), de synthèse de la voix (Klatt, LPC, PSOLA) et de reconnaissance de la voix (HMM). Locuteur (GMM).

Objectifs du cours

Note: La description ci-dessus ne tient pas compte des modifications apportées récemment au cours. À partir de maintenant, le cours est divisé en deux parties: les systèmes de communications écrites et les systèmes de communications vocales.

Partie I - Communications écrites

À partir des modules linguistique d’analyse du langage chez les humains, toutes les phases de conception d'un système de traitement automatique de textes écrits en langue naturelle (TALN) seront explorées : de l’extraction de caractéristiques de complexité variée en passant par l’analyse de textes de styles et de qualité variés (tweet, textes cliniques, documentations officielles), jusqu’à l’utilisation d’algorithme d’apprentissage machine pour la réalisation de tâches. À la fin de cette partie, l'étudiant.e pourra :
1- expliquer les différences entre une traitement fondée sur nos connaissances des langues naturelles (modèle linguistique) et l'utilisation de modèles statistiques ou probabilistes;
2- déterminer les outils et les traitements nécessaires pour résoudre un problème d’analyse automatique de textes;
3- construire un schéma d’annotations et un protocole approprié et évaluer le temps requis pour construire le système;
4- comparer des modèles puis évaluer et interpréter la qualité des résultats.

Partie II- Communications vocales

À partir de la théorie de perception et de production de la parole chez les humains, toutes les phases de conception d'un système de communication vocale seront explorées, du traitement du signal jusqu'à l'utilisation d'algorithmes d'apprentissage. À la fin de ce cours, l'étudiant.e pourra :
1- expliquer le fonctionnement des systèmes de reconnaissance automatique de la parole; filtrer le signal et extraire des caractéristiques du signal audio;
2- utiliser des techniques d'apprentissage probabiliste (modèle bayésien, modèle de Markov caché, mixture de gaussiennes, réseau de neurones) et les aura approfondies;
3- évaluer la performance des systèmes de reconnaissance de la parole.

Stratégies pédagogiques

Partie I (cours 1 à 6):
Les documents pertinents (articles, vidéocasts) doivent être consultés avant la séance de cours. Les vidéocasts de chaque cours sont divisés en petits modules de moins de 10 minutes, ce qui permet de facilement focaliser vos efforts. Des exercices hebdomadaires permettent aux étudiants.es de vérifier leur connaissances acquises.
Les 3,5 heures de cours se déroule en mode laboratoire interactif. Durant ces séances, une brève revue du contenu est présenté et le laboratoire interactif permet de réaliser les exercices de la semaine. Un mini-projet termine cette partie.
Le cours 7 est dédié à la réalisation de l'examen intra.

Partie II (cours 8 à 13):
Les documents pertinents doivent être consultés avant la séance de cours. Le cours se déroule en mode standard. Des exercices permettent aux étudiants.es de vérifier leur connaissances acquises.

Utilisation d’appareils électroniques

n/a

Horaire

Groupe	Jour	Heure	Activité
01	Lundi	13:30 - 17:00	Activité de cours
	Mercredi	08:30 - 12:00	Deuxième activité de cours

Coordonnées de l’enseignant

Groupe	Nom	Activité	Courriel	Local	Disponibilité
01	Sylvie Ratté	Activité de cours	Sylvie.Ratte@etsmtl.ca	A-4482
01	Patrice Boucher	Deuxième activité de cours	Patrice.Boucher@etsmtl.ca	A-4526

Cours

3h	Présentation du domaine Modules linguistiques : Morphologie, syntaxe et sémantique Types de textes : problèmes, outils, approches (e.g., tweet vs Word vs pdf vs transcripts vs clinique vs…) Pipeline TALN et tâches Préparation des textes et similarité Caractéristiques et valeurs : tf, idf, tf-idf, BM25 Représentation vectorielle et normalisation Calcul de similarité
3h	Traitement des textes cliniques Caractéristiques des textes cliniques Classifications médicales et terminologies Métriques d’évaluation Pipeline pour le traitement des textes cliniques Généralisation du pipeline pour d’autres types de textes
3h	Factorisation matricielle et modélisation par sujets (topic modeling) Décomposition en valeurs singulières (SVD/LSA) Factorisation matricielle non négative (NMF) Analyse sémantique latente probabiliste (pLSA) Survol de l’allocation latente de Dirichlet (LDA) Transformations non linéaires et ingénierie des caractéristiques
3h	Agrégation de textes (clustering) Choix de caractéristiques Topique et Factorisation Modèle génératif de mélange Algorithmes de clustering sur du texte Clustering de textes comme des séquences
3h	Opinions et analyse de sentiments Lexique d’opinions et de sentiments Classification des sentiments au niveau du document Classification des sentiments au niveau des phrases Résumé de textes Résumés extractifs Méthode par topic et méthode latente Application de l’apprentissage machine
6h	Modèles par séquences et apprentissage profond Modèles de langue statistiques Modèle matricielle de factorisation du contexte des mots Représentation graphique des distances entre les mots Modèle de langue neuronal Réseaux de neurones récurrents
3h	Traitement du signal Éléments du signal audio dans le domaine temporel et fréquentiel Échantillonnage et quantification du signal Transformation du signal dans le domaine fréquentiel Lecture du spectre et du spectrogramme
3h	Traitement du signal de la parole Éléments de systèmes RAPs Encodage du signal, extraction des caractéristiques audio Lecture du spectrogramme pour la reconnaissance des voyelles et consonnes
3h	Modèle de langage (ML) modélisation de la probabilité de séquence de mots Estimation des n-grammes p(w\|historique) / bigrammes / trigrammes Qualité du modèle de langage, facteur de branchement, perplexité Lissage et modèle de langage interpolé, modèle Backoff
3h	Base des systèmes d'apprentissage Éléments de systèmes d'apprentissage : objectifs (classification, régression), complexité, validation. Application à la reconnaissance de la parole, problématique Fonctions de densité de probabilité, estimation par maximum de vraisemblance (MLE) Mixture de gaussiennes GMM.
6h	Systèmes d'apprentissage et applications Modèle de Markov cachée (HMM) Perceptron, réseaux de neurones multicouche (MLP), profond (DNN), convolutionnels (CNN) Reconnaissance d'émotions

Évaluation

ÉVALUATION	Pondération
Examen intra portant sur la partie I	30 %
Devoirs pour la partie I (3)	12 %
Mini-projet pour la partie I (1)	8 %
Examen final portant sur la partie II	30 %
Devoirs pour la partie II	20 %

Double seuil
Note minimale : 50

Dates des examens intra

Groupe(s)	Date
1	30 mai 2022

Politique de retard des travaux
Tout travail (devoir pratique, rapport de laboratoire, rapport de projet, etc.) remis en retard sans motif valable, c’est-à-dire autre que ceux mentionnés dans le Règlement des études (1er cycle, article 7.2.7 b / cycles supérieurs, article 6.5.4 b) se verra attribuer la note zéro, à moins que d’autres dispositions ne soient communiquées par écrit par l’enseignant dans les consignes de chaque travail à remettre ou dans le plan de cours pour l’ensemble des travaux.

Dispositions additionnelles

Les dates de remise doivent impérativement être respectées. Aucun délai n'est accordé pour les devoirs. Pour les autres travaux, une pénalité de 10 % par jour de retard sera appliquée pour tous les travaux remis après la date limite.

Absence à un examen
Dans les cinq (5) jours ouvrables suivant la tenue de son examen, l’étudiant devra justifier son absence d’un examen durant le trimestre auprès de la coordonnatrice – Affaires départementales qui en référera au directeur de département. Pour un examen final, l’étudiant devra justifier son absence auprès du Bureau du registraire. Toute absence non justifiée par un motif majeur (maladie certifiée par un billet de médecin, décès d’un parent immédiat ou autre) à un examen entraînera l’attribution de la note (0).

Infractions de nature académique
Les clauses du « Règlement sur les infractions de nature académique de l’ÉTS » s’appliquent dans ce cours ainsi que dans tous les cours du département. Les étudiants doivent consulter le Règlement sur les infractions de nature académique (https://www.etsmtl.ca/docs/ETS/Gouvernance/Secretariat-general/Cadre-reglementaire/Documents/Infractions-nature-academique ) pour identifier les actes considérés comme étant des infractions de nature académique ainsi que prendre connaissance des sanctions prévues à cet effet. À l’ÉTS, le respect de la propriété intellectuelle est une valeur essentielle et les étudiants sont invités à consulter la page Citer, pas plagier ! (https://www.etsmtl.ca/Etudiants-actuels/Baccalaureat/Citer-pas-plagier).

Documentation obligatoire

n/a

Ouvrages de références

Partie I

Aggarwal, Charu C. 2018. Machine Learning for Text. Springer.
Lane, Hobson, Howard, Cole, Hapke, Hannes Maax. 2019. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python. Manning.
Dalianis, Hercules. 2018. Clinical Text Mining: Secondary use of Electronic Patient Records. Springer.

Partie II

Alpaydin, Ethem. 2004. Introduction to Machine Learning. MIT Press.
Bishop, Christopher M. 2011. Pattern Recognition and Machine Learning. Springer.
Duda, Richard O., Hart, Peter E., Stork, David G. 2001. Pattern Classification. John Wiley & Sons.
Haton, Jean-Paul, Cerisara, Christophe, Fohr, Dominique, Laprie, Yves, Smaïli, Kamel. 2006. Reconnaissance automatique de la parole : du signal à son interprétation. Dunod.
Huang, Xuang, Acero, Alex, Hon, Hsiao-Wuen. 2001. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice-Hall.
Juravsky, Daniel, Martin, James H. 2019. Speech and Language Processing. La première ébauche de cette 3eme édition est disponible gratuitement en ligne (https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf).
McTear, Michael F. 2004. Spoken Dialogue Technology: Toward the Conversational User Interface. Springer.

Adresse internet du site de cours et autres liens utiles

Consultez le site Moodle