- Entrée :données de séquence d'ARN unicellulaire (matrice de comptage)
- Contrôle qualité (QC) :élimine les cellules et les gènes de mauvaise qualité
- Normalisation des données :normaliser les données pour corriger les biais techniques
2. Clustering
- Effectuer un clustering sur les données normalisées pour identifier les clusters de cellules
- Différentes méthodes de clustering peuvent être utilisées (par exemple, k-means, clustering hiérarchique, Louvain)
3. Identification du gène marqueur
- Pour chaque cluster :
- Calculer l'expression moyenne de chaque gène dans les cellules du cluster
- Comparer l'expression moyenne des gènes du cluster à celle des autres clusters
- Identifier les gènes fortement exprimés dans le cluster par rapport aux autres clusters
4. Validation du gène marqueur
- Des critères supplémentaires peuvent être appliqués pour sélectionner les gènes marqueurs :
- Changement de pli :considérez les gènes avec un changement de pli élevé entre le cluster et les autres clusters
- Signification statistique :utilisez des tests statistiques (par exemple, test t, test de Wilcoxon) pour évaluer la signification des différences d'expression
- Spécificité :S'assurer que les gènes marqueurs sont exprimés sélectivement dans le cluster d'intérêt
5. Interprétation et visualisation
- Analyser les fonctions et voies associées aux gènes marqueurs identifiés
- Générez des cartes thermiques, des tracés de volcan ou d'autres visualisations pour présenter les gènes marqueurs et leurs modèles d'expression
6. Validation dans des ensembles de données indépendants (facultatif)
- Pour accroître la confiance, validez les gènes marqueurs identifiés dans un ensemble de données indépendant si disponible.