Jérémie Zumer défend avec succès sa thèse de Doctorat
Félicitations à Dr. Jérémie Zumer pour avoir réussi avec brio sa défense de thèse! Sa thèse, intitulée Deep learning algorithms for database-driven peptide search, sera disponible sous peu dans le système Papyrus de l’UdeM.
La protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead, 2002) - dépend fortement de l’analyse de données expérimentales de série chronologique complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré, fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des peptides proprement dit. Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques au côté informatique de la recherche sur l’identification des peptides. Nous introduisons d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) , qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème, nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme résultant pour démontrer des identifications de peptides constamment améliorées après in- tégration dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur que nous proposons démontrent une amélioration de plus de 20% des taux d’identification de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique peuvent en effet largement améliorer les identifications.