Léonard Sauvé défend avec succés sa thèse de Doctorat

Félicitations à Dr. Léonard Sauvé pour avoir réussi avec brio sa défense de thèse! Sa thèse, intitulée Paramétrisation des modèles de survie & des réductions dimensionnelles par apprentissage profond sur des transcriptomes de cancer, est maintenant disponible dans le système Papyrus de l’UdeM.

Les analyses de survies jouent un rôle important pour la recherche des traitements des cancers. Les cancers sont porteurs de nombreuses mutations et de réarrangements chromosomiques, tandis que les variants génétiques et démographiques décrivent les facteurs génétiques propres à l’individu. Les profils d’expression des gènes d’un cancer quantifiés via la méthode de séquençage d’ARN mesurent l’effet des variants génétiques propres au cancer et partiellement à l’individu. Le but de cette thèse est de mesurer l’impact des réductions dimensionnelles pour les analyses de survie, de développer une méthode de réduction dimensionnelle pour les données transcriptomiques et d’explorer des méthodes d’apprentissage profond utilisant les réductions dimensionnelles qui améliorent la performance des analyses de survie. Deux objectifs sousjacents se retrouvent également entremêlés aux travaux présentés ici : trouver les apports des réseaux de neurones artificiels profonds à la prédiction de survie en cancer, s’ils existent et identifier l’impact des hyperparamètres nécessaires pour obtenir les modèles optimaux. Nos résultats démontrent comment une signature génique publiée a une capacité prédictive de la survie en LMA avec le modèle de survie standard par indice de concordance équivalente que l’ACP, une méthode de réduction dimensionnelle informée. Ensuite, on montre une adaptation à une méthode publiée qui est nécessaire pour atteindre la convergence d’un réseau de neurones profonds. Enfin, on décrit la différence de performance entre le modèle de survie standard et le modèle utilisant ce modèle par indice de concordance. En utilisant tout le profil, il ne semble pas y avoir de différence, mais des réductions dimensionnelles informées à basse dimension semble favoriser les réseaux profonds. Dans le quatrième chapitre de la thèse, les développements d’une méthode de réduction dimensionnelle des Factorized embeddings ont permis d’améliorer ses temps de calcul et démontré de nouveau que les FE peuvent être comme technique de visualisation 2D. Nous avons également permis aux FE entrainés de faire l’inférence de nouveaux points et démontré que ceux-ci peuvent être utilisés comme méthode de réduction dimensionnelle pour la prédiction d’une tâche auxiliaire et nous l’avons comparé à des approches standards. De plus, nous avons cartographié certains liens entre les hyperparamètres de la L2 et de la taille des embeddings des gènes et la topologie de l’espace de l’embedding des échantillons en 2D. Enfin, nous avons identifié les limitations actuelles du modèle qui nous orientent les recherches futures en vue d’améliorer les performances de l’algorithme. Le cinquième chapitre présente des approches qui combinent les réductions dimensionnelles et l’apprentissage profond afin d’améliorer les prédictions de survie. Deux types d’approches sont explorées, l’une faisant l’entrainement d’un réseau de survie et l’optimisation d’un réseau de réduction dimensionnelle de manière découplée et l’autre faisant l’entrainement des deux réseaux simultanément. Dans le premier cas en apprentissage découplé, un réseau de réduction dimensionnelle est entrainé dans un premier temps, puis le réseau de survie profond est entrainé sur la projection des données dans l’espace réduit. Dans le deuxième cas, l’entrainement des deux parties du réseau est effectué simultanément durant l’optimisation. Pour cette section, on étudie deux approches contrastantes : l’apprentissage multi-tâche utilisant les auto-encodeurs variationnels et un réseau de Cox profond et l’autre utilisant l’apprentissage par transfert. Enfin on y analyse que réseaux de survie ne profitent pas de modèles profonds à l’heure actuelle. Leur nombre limité d’échantillons dans les jeux de données et leur trop grande dimensionalité en serait la raison principale. Les réductions dimensionnelles qui ont été explorées dans cette thèse offrent des perspectives d’amélioration intéressantes, mais méritent d’être explorées davantage pour offrir des améliorations significatives.