Crédit :CC0 Domaine public
Le Big Data est devenu omniprésent ces dernières années, et particulièrement dans les disciplines avec des modèles de données hétérogènes et complexes. C'est particulièrement vrai pour la chimie. À certains égards, les composés chimiques peuvent être comparés à des synonymes en linguistique parce qu'un composé particulier peut être représenté de diverses manières. Pour compliquer encore les choses, certains d'entre eux n'ont même pas de structure spécifique et n'existent que comme un amalgame de formes se transformant l'une en l'autre. C'est pourquoi il est important pour les chercheurs de savoir s'ils ont affaire à des composés différents ou à des représentations différentes du même.
Parfois, les bases de données contiennent également des erreurs dues à l'inattention de l'utilisateur. Un logiciel spécial est nécessaire pour détecter et corriger de telles erreurs. Dans le cas de la chimie organique, les réactions sont notoirement difficiles à analyser. C'est pourquoi les données de réaction en chimioinformatique sont beaucoup moins développées que les informations sur les molécules individuelles.
Le Laboratoire de chimioinformatique et de modélisation moléculaire (Université fédérale de Kazan) travaille sur ce problème depuis 2013. Les chercheurs y ont appris à prédire les caractéristiques des réactions, trouver les conditions de réaction optimales, et détecter et corriger les erreurs de données. Par conséquent, une base de données unique de caractéristiques de réaction a été créée. Actuellement, il comprend 3,5 millions d'entrées. KFU est le seul membre russe de Reaxys R&D Collaboration, un collectif travaillant sur des bases de données chimiques.
Dans ce nouveau projet, intitulé CGRtools, Les chercheurs de KFU ont résolu un certain nombre de problèmes pour mieux gérer les informations de réaction. La bibliothèque logicielle est nettement plus riche en fonctionnalités que tous les outils existants. CGRtools prend en charge les molécules et les réactions en tant qu'objets. CGRtools traite les objets chimiques de la même manière que les types de données Python standard comme les entiers, cordes, etc. Chaque objet chimique est hachable en raison de la canonisation de la numérotation des atomes. Les objets prennent en charge l'héritage de classe transparent, qui augmente les méthodes et les attributs existants sans casser ceux qui existent déjà.
Surtout, la bibliothèque est disponible gratuitement sur https://github.com/cimmkzn/CGRtools.