Nicolas Jacquin commence son doctorat dans le Laboratoire Lemieux
Suite au dépôt de son mémoire de maîtrise, Nicolas Jacquin poursuit ses études dans le Laboratoire Lemieux et entâme une thèse de doctorat! Son mémoire, intitulé Transcriptomique par k-mers par l’adaptation des représentations vecto rielles factorisées et l’identification de contextes génomiques, est maintenant disponible dans le système Papyrus de l’UdeM.
L’essor continu de la transcriptomique et des technologies de séquençage a conduit à la création de nombreux pipelines d’analyse des données transcriptomiques. Cependant, ces méthodes reposent sur l’alignement des séquences à un génome de référence pour générer un profil transcriptomique. Cet alignement introduit des biais et ne capture pas toujours les événements génomiques rares potentiellement significatifs, comme les fusions de gènes. Pour surmonter cette limitation, il est nécessaire de produire des profils transcriptomiques sans référence. Cela permettrait de représenter la transcriptomique d’un échantillon directement à partir des lectures de séquençage, sans dépendre des annotations géniques, tout en gardant la capacité prédictive d’un profil transcriptomique “classique” sur les phénotypes dépendant de la transcriptomique. Cependant, cette approche pose un problème de grande dimensionnalité, car elle implique de travailler directement avec les lectures brutes de séquençage en abandonnant la notion de gêne pour nous guider. Dans ce mémoire, je présente d’abord le développement d’une structure capable de représenter plusieurs centaines d’échantillons de RNA-seq en mémoire. Ensuite, je propose une méthode utilisant des réseaux de neurones pour réduire la dimensionnalité des données, tout en conservant l’information transcriptomique. Ce réseau est entraîné à partir des kmers issus des lectures de séquençage et sa tâche est de prédire l’abondance des k-mers dans chaque échantillon. Cela permet de générer un espace à faible dimension (une représentation vectorielle, ou “embedding”) représentatif des profils transcriptomiques, sans alignement à une référence. Ces représentations de faible dimensionalité devrait pouvoir être utilisées pour faire toute sorte de prédictions possible avec un profil transcriptomique (classifications de type de cancers, de type de tissue…). Je présente aussi un outil développé parallèlement faisant usage des tables de k-mers pour de trouver, sans référence, les séquences flanquantes d’un peptide d’intérêt à partir des k-mers d’expériences de séquençage, permettant ainsi de trouver les séquences flanquantes de peptides non-canoniques.