L'objectif du cours est d'utiliser les mathématiques pour explorer certains aspects du fonctionnement des réseaux de neurones profonds.
Plus précisément, au terme de ce cours, l'étudiant sera notamment en mesure
- De comprendre les fondements du fonctionnement des réseaux de neurones profonds et d'interpréter mathématiquement la mécanique de ceux-ci.
- D'utiliser différents outils mathématiques pour améliorer l'implémentation d'un réseau de neurones.
- D'identifier et de comprendre certains obstacles à l'apprentissage et d'expliquer mathématiquement le fonctionnement de certaines techniques de régularisation.
- De comprendre différents aspects théoriques des réseaux de neurones, notamment leur universalité et le rôle de la profondeur dans l'expressivité.
- De comprendre les fondements de l'apprentissage géométrique et d'identifier les aspects mathématiques à considérer dans la confection d'un réseau qui vise à apprendre sur des espaces non-euclidiens.
- D'expliquer le fonctionnement mathématique de certaines techniques de réduction de la dimension.
- De comprendre les principes probabilistes permettant la réalisation d'un autoencodeur variationnel.
- D'expliquer certains concepts mis de l'avant dans la recherche récente sur l'apprentissage géométrique tel que décrit dans l'article de Bronstein et al.
- D'expliquer les principes mathématiques qui permettent la conception de larges modèles de language comme ChatGPT.
- De lire certains articles scientifiques de pointe sur la recherche active en deep learning et d'en expliquer les idées principales.
Les thèmes suivants seront abordés :
Rappels d'algèbre linéaire et de calcul différentiel. Structure d'un réseau de neurones, hyperparamètres, activation et propagation avant. Équations de la propagation arrière. Problèmes d'apprentissage, régularisation, fonctions de coût, distance et entropie croisée. Problèmes de grands et petits gradients. Universalité, théorème de Cybenko. Rôle de la profondeur dans la puissance expressive, théorème de Telgarsky. Apprentissage profond géométrique, théorie spectrale du graphe-Laplacien. Réduction de la dimension, analyse en composantes principales. Séparation, astuce du noyau, algorithmes de Belkin-Niyogi. Introduction aux variétés différentielles, espaces et plongements hyperboliques. Éléments de la théorie des probabilités, distributions, théorème de Bayes. Entropie croisée, divergence de Kullback-Liebler, maximum de vraisemblance. Autoencodeurs et autoencodeurs variationnels. Apprentissage géométrique : grilles, groupes, graphes et géodésiques. Transformers. Modèle de diffusion.