Les ARN longs non codants (ARNlnc) sont des transcrits omniprésents jouant un rôle régulateur crucial dans divers processus biologiques, notamment le remodelage de la chromatine, la régulation post-transcriptionnelle et les modifications épigénétiques. Bien que les preuves accumulées élucident les mécanismes par lesquels les ARNnc des plantes modulent la croissance, le développement des racines et la dormance des graines, leur identification précise reste difficile en raison du manque de méthodes spécifiques aux plantes.
Actuellement, les méthodes traditionnelles d’identification des lncARN végétaux sont largement développées sur la base d’ensembles de données humaines ou animales. Par conséquent, l'exactitude et l'efficacité de ces méthodes pour prédire les ARNnc des plantes n'ont pas été entièrement évaluées.
Récemment, un article de recherche intitulé « Plant-LncPipe :un pipeline informatique fournissant une amélioration significative de l'identification des lncARN végétaux » par un groupe dirigé par Jian-Feng Mao de l'Université forestière de Pékin et de l'Université d'Umeå a été publié dans Horticulture Research. .
Cette étude a collecté de manière approfondie des données de séquençage d'ARN de haute qualité provenant de diverses plantes et a utilisé ces données spécifiques aux plantes pour recycler les modèles de trois outils traditionnels de prédiction d'ARNnc, à savoir CPAT, LncFinder et PLEK. Les performances des modèles recyclés ont été comparées et évaluées par rapport à d'autres outils de prédiction lncRNA populaires, tels que CPC2, CNCI, RNAplonc et LncADeep.
Les résultats ont démontré que les modèles recyclés amélioraient considérablement les performances de prédiction des ARNnc végétaux. Parmi eux, deux modèles recyclés, LncFinder-plant et CPAT-plant, ont surpassé les autres sur plusieurs mesures d'évaluation, ce qui en fait les outils les plus appropriés pour l'identification des ARNlnc de plantes.
Cette recherche a développé un pipeline informatique nommé Plant-LncPipe pour l'identification et l'analyse des ARNlnc végétaux.
Ce pipeline intègre deux modèles d'identification les plus performants, CPAT-plant et LncFinder-plant, permettant un processus informatique complet englobant le prétraitement des données brutes, l'assemblage des transcriptions, l'identification des lncARN, la classification des lncARN et les origines des lncARN. Ce pipeline informatique peut être largement appliqué à diverses espèces végétales. Plant-LncPipe est accessible au public.
L’étude démontre que le recyclage des modèles de prédiction d’ARNlnc sur des données transcriptomiques végétales de haute qualité a permis une capture plus précise des caractéristiques de l’ARNlnc des plantes, améliorant ainsi considérablement la précision et la fiabilité des prédictions. L'étude a souligné l'importance du recyclage spécifique à l'espèce pour améliorer la précision du modèle. Le recyclage des modèles matures existants a permis de conserver l'expérience et les méthodologies accumulées antérieurement tout en améliorant encore l'applicabilité et la précision du modèle.
Plus d'informations : Xue-Chan Tian et al, Plant-LncPipe :un pipeline informatique offrant une amélioration significative de l'identification des ARNlnc des plantes, Horticulture Research (2024). DOI : 10.1093/hr/uhae041
Informations sur le journal : Recherche horticole
Fourni par l'Académie chinoise des sciences