Il y a de fortes chances que vous ayez envoyé ou reçu un message tronqué grâce à la correction automatique ou à la saisie semi-automatique. Il y a des centaines de mèmes dans lesquels ces erreurs provoquent des problèmes de communication, souvent avec des résultats hilarants. Comme celui-ci. Ou celui-ci. Ou celui-ci.
Mais ce n'est pas si drôle quand cela arrive à votre article scientifique. Les articles académiques incluent fréquemment des fichiers supplémentaires avec des données, tableaux et graphiques à l'appui de la conclusion de l'article. Beaucoup de ces fichiers sont des feuilles de calcul.
Depuis 2004, les scientifiques ont remarqué que Microsoft Excel, le tableur populaire, a la mauvaise habitude de changer certains noms de gènes en d'autres types de données. Par exemple, les généticiens utilisent MARCH1 comme raccourci pour le doigt de type CH annulaire associé à la membrane 1. Mais Excel interprète MARCH1 comme une date, le convertissant automatiquement en 1-mars ou en une autre désignation pour le premier mars.
Excel identifie à tort d'autres noms de gènes comme des coordonnées ou des points flottants. Vous pourrez peut-être deviner que le 1er mars est en fait le 1er MARS mais qu'en est-il du 2.31E+13 ? C'est ainsi qu'Excel convertit l'identifiant RIKEN 2310009E13. RIKEN est un grand institut de recherche au Japon qui, entre autres, mène des projets sur le génome. (Pour mémoire, nous avons essayé de brancher l'identifiant RIKEN dans une feuille de calcul Excel et l'avons converti automatiquement en 2.31E+19, toujours faux et toujours pas ce qui est prévu dans ces articles universitaires.)
Bien que les chercheurs aient identifié ce problème pour la première fois il y a plus d'une décennie, il persiste aujourd'hui. Les chercheurs Mark Ziemann, Yotam Eren et Assam El-Osta en ont projeté plus de 35, 000 fichiers supplémentaires pour voir à quel point le problème était répandu. Ils ont développé un logiciel automatisé qui recherchait toutes les données qui ressemblaient à une liste de noms de gènes. Ils ont identifié 7, 467 listes de gènes représentant les données supplémentaires pour 3, 597 articles publiés dans 18 revues différentes. Il s'est avéré que 704 de ces articles publiés comprenaient des fichiers contenant des erreurs de format Excel. C'est un taux d'échec de 19,6 %. En d'autres termes, près d'un article publié sur cinq comprend des fichiers supplémentaires contenant des erreurs de formatage Excel.
Ce n'est pas seulement un inconvénient. Les chercheurs s'appuient sur des travaux publiés pour guider leurs propres projets. Si les fichiers contiennent des erreurs, il peut être difficile et long de régler le problème et de trouver les données pertinentes.
Pourquoi ne pas simplement désactiver les fonctionnalités de formatage automatique ? Selon l'équipe de recherche, il n'y a aucun moyen de désactiver définitivement les fonctionnalités dans Excel. Vous pourrez peut-être modifier manuellement chaque option chaque fois que vous créez un nouveau fichier, mais c'est inefficace. Ils ont fait remarquer, cependant, que Google Sheets ne suit pas la même approche de mise en forme. Quoi de plus, si vous mettez d'abord toutes vos données dans Google Sheets, puis les copiez dans un autre tableur, le formatage reste intact.
C'est un peu comique qu'une fonctionnalité destinée à aider les gens à utiliser des feuilles de calcul provoque un tel casse-tête dans les cercles universitaires. Peut-être que les futures versions d'Excel incluront une option pour désactiver indéfiniment les fonctionnalités de mise en forme automatique. Jusque là, les généticiens devraient revérifier leur travail ou envisager de passer à Google Sheets.