Les progrès exponentiels des technologies multi-omiques unicellulaires ont conduit à l’accumulation d’ensembles de données multi-omiques vastes et diversifiés. Cependant, l’intégration des données de protéomique et de transcriptomique (ou épigénomique) unicellulaire pose un défi important aux méthodes existantes. Plusieurs modèles basés sur des transformateurs, tels que Geneformer, ont considérablement modifié le paradigme de l'analyse du transcriptome unicellulaire. Cependant, ces méthodes imposent des demandes importantes en ressources informatiques.
Pour relever ces défis, des chercheurs du jardin botanique de Wuhan de l'Académie chinoise des sciences ont développé une méthode basée sur un transformateur, appelée scmFormer, pour intégrer des données protéomiques et transcriptomiques unicellulaires à grande échelle à l'aide d'un transformateur multitâche. L'étude intitulée « scmFormer Integrates Large-Scale Single-Cell Proteomics and Transcriptomics Data by Multi-Task Transformer » a été publiée dans Advanced Science. .
Les chercheurs ont présenté une évaluation complète et réalisé des études de cas de cette méthode. Les résultats ont montré que scmFormer présentait une compétence remarquable dans l'harmonisation des ensembles de données omiques unicellulaires et protéomiques à grande échelle au niveau du type de cellule et au niveau cellulaire à plus petite échelle avec des ressources informatiques limitées.
De plus, scmFormer possède la capacité d'intégrer plusieurs ensembles de données multimodales appariées unicellulaires, ce qui présente le double avantage d'une réduction des coûts élevés et d'une amélioration des informations biologiques.
De plus, scmFormer montre une capacité exceptionnelle à éliminer les différences techniques entre les différentes modalités omiques tout en préservant les informations biologiques sous-jacentes inhérentes aux données, couvrant à la fois les types de cellules et les conditions expérimentales.
L'application de scmFormer pour l'intégration de deux ensembles de données COVID-19 contenant 1,48 million de cellules a en outre démontré l'avantage distinct de scmFormer pour gérer de grands ensembles de données sur des ordinateurs portables ordinaires.
Plus d'informations : Jing Xu et al, scmFormer intègre des données protéomiques et transcriptomiques unicellulaires à grande échelle par un transformateur multitâche, Science avancée (2024). DOI : 10.1002/advs.202307835
Informations sur le journal : Science avancée
Fourni par l'Académie chinoise des sciences