Paradigm4 permet aux utilisateurs d'intégrer des données provenant de sources telles que le séquençage génomique, mesures biométriques, facteurs environnementaux, et plus dans leurs enquêtes pour permettre de nouvelles découvertes dans un éventail de domaines des sciences de la vie. Crédit :Massachusetts Institute of Technology
En tant que technologies telles que le séquençage génomique unicellulaire, imagerie biomédicale améliorée, et les appareils médicaux de « l'internet des objets » prolifèrent, les découvertes clés sur la santé humaine se trouvent de plus en plus dans de vastes trésors de données complexes sur les sciences de la vie et la santé.
Mais tirer des conclusions significatives de ces données est un problème difficile qui peut impliquer de rassembler différents types de données et de manipuler d'énormes ensembles de données en réponse à diverses enquêtes scientifiques. Le problème concerne autant l'informatique que d'autres domaines de la science. C'est là qu'intervient Paradigm4.
L'entreprise, fondée par Marilyn Matz SM '80 et lauréat du prix Turing et professeur du MIT Michael Stonebraker, aide les entreprises pharmaceutiques, instituts de recherche, et les entreprises de biotechnologie transforment les données en informations.
Il accomplit cela avec un système de gestion de base de données informatique qui est construit à partir de zéro pour héberger les divers, des données multiformes aux frontières de la recherche en sciences de la vie. Cela inclut des données provenant de sources telles que les biobanques nationales, essais cliniques, l'internet médical des objets, atlas de cellules humaines, images médicales, facteurs environnementaux, et multi-omiques, un domaine qui comprend l'étude des génomes, microbiote, métabolomes, et plus.
En plus de l'architecture unique du système, l'entreprise a également construit la préparation des données, gestion des métadonnées, et des outils d'analyse pour aider les utilisateurs à trouver les modèles et les corrélations importants qui se cachent dans tous ces chiffres.
Dans de nombreux cas, les clients explorent des ensembles de données que les fondateurs jugent trop volumineux et complexes pour être représentés efficacement par les systèmes de gestion de bases de données traditionnels.
« Nous souhaitons permettre aux scientifiques et aux spécialistes des données de faire des choses qu'ils ne pouvaient pas faire auparavant en leur permettant de gérer plus facilement le calcul à grande échelle et l'apprentissage automatique sur des données diverses, " dit Matz. "Nous aidons les scientifiques et les bioinformaticiens à des recherches reproductibles pour poser et répondre plus rapidement aux questions difficiles."
Un nouveau paradigme
Stonebraker est un pionnier dans le domaine des systèmes de gestion de bases de données depuis des décennies. Il a créé neuf entreprises, et ses innovations ont établi des normes sur la façon dont les systèmes modernes permettent aux gens d'organiser et d'accéder à de grands ensembles de données.
Une grande partie de la carrière de Stonebraker s'est concentrée sur les bases de données relationnelles, qui organisent les données en colonnes et en lignes. Mais au milieu des années 2000, Stonebraker s'est rendu compte que beaucoup de données générées seraient mieux stockées non pas dans des lignes ou des colonnes mais dans des tableaux multidimensionnels.
Par exemple, les satellites divisent la surface de la Terre en grands carrés, et les systèmes GPS suivent le mouvement d'une personne à travers ces carrés au fil du temps. Cette opération est verticale, horizontal, et les mesures de temps qui ne sont pas facilement regroupées ou autrement manipulées pour l'analyse dans les systèmes de bases de données relationnelles.
Stonebraker se souvient que ses collègues scientifiques se plaignaient que les systèmes de gestion de bases de données disponibles étaient trop lents pour travailler avec des ensembles de données scientifiques complexes dans des domaines comme la génomique, où les chercheurs étudient les relations entre les données multi-omiques à l'échelle de la population, données phénotypiques, et les dossiers médicaux.
"[Les systèmes de bases de données relationnelles] analysent horizontalement ou verticalement, mais pas les deux, " explique Stonebraker. " Vous avez donc besoin d'un système qui fait les deux, et cela nécessite un gestionnaire de stockage en bas du système qui est capable de se déplacer à la fois horizontalement et verticalement à travers une très grande baie. C'est ce que fait Paradigm4."
En 2008, Stonebraker a commencé à développer un système de gestion de base de données au MIT qui stockait les données dans des tableaux multidimensionnels. Il a confirmé que l'approche offrait des avantages majeurs en termes d'efficacité, permettant des outils analytiques basés sur l'algèbre linéaire, y compris de nombreuses formes d'apprentissage automatique et de traitement de données statistiques, à appliquer à d'énormes ensembles de données de nouvelles manières.
Stonebraker a décidé de transformer le projet en entreprise en 2010, quand il s'est associé à Matz, un entrepreneur à succès qui a cofondé Cognex Corporation, une grande entreprise de vision industrielle qui est devenue publique en 1989. Les fondateurs et leur équipe se sont mis au travail pour élaborer les principales caractéristiques du système, y compris son architecture distribuée qui permet au système de fonctionner sur des serveurs à faible coût, et sa capacité à nettoyer et organiser automatiquement les données de manière utile pour les utilisateurs.
Les fondateurs décrivent leur système de gestion de base de données comme un moteur de calcul pour les données scientifiques, et ils l'ont nommé SciDB. En plus de SciDB, ils ont développé une plateforme d'analyse, appelé moteur de découverte REVEAL, sur la base des activités de recherche quotidiennes et des aspirations des utilisateurs.
"Si vous êtes un scientifique ou un data scientist, Les produits REVEAL et SciDB de Paradigm prennent en charge toutes les discussions de données et les calculs de plomberie et de câblage, " pour que vous n'ayez pas à vous soucier de l'accès aux données, déplacer des données, ou la mise en place d'un calcul distribué parallèle, " dit Matz. " Vos données sont prêtes pour la science. Posez simplement votre question scientifique et la plate-forme orchestre toute la gestion et le calcul des données pour vous."
SciDB est conçu pour être utilisé à la fois par les scientifiques et les développeurs, afin que les utilisateurs puissent interagir avec le système via des interfaces utilisateur graphiques ou en tirant parti de langages statistiques et de programmation tels que R et Python.
« Cela a été très important de vendre des solutions, pas des blocs de construction, " dit Matz. " Une grande partie de notre succès dans les sciences de la vie avec les meilleures sociétés pharmaceutiques et biotechnologiques et les instituts de recherche leur apporte notre suite REVEAL de solutions spécifiques aux applications aux problèmes. Nous ne leur remettons pas une plate-forme analytique qui est un ensemble de blocs LEGO ; nous leur apportons des solutions qui gèrent les données qu'ils traitent quotidiennement, and solutions that use their vocabulary and answer the questions they want to work on."
Accelerating discovery
Today Paradigm4's customers include some of the biggest pharmaceutical and biotech companies in the world as well as research labs at the National Institutes of Health, Université de Stanford, and elsewhere.
Customers can integrate genomic sequencing data, biometric measurements, data on environmental factors, and more into their inquiries to enable new discoveries across a range of life science fields.
Matz says SciDB did 1 billion linear regressions in less than an hour in a recent benchmark, and that it can scale well beyond that, which could speed up discoveries and lower costs for researchers who have traditionally had to extract their data from files and then rely on less efficient cloud-computing-based methods to apply algorithms at scale.
"If researchers can run complex analytics in minutes and that used to take days, that dramatically changes the number of hard questions you can ask and answer, " Matz says. "That is a force-multiplier that will transform research daily."
Beyond life sciences, Paradigm4's system holds promise for any industry dealing with multifaceted data, including earth sciences, where Matz says a NASA climatologist is already using the system, and industrial IoT, where data scientists consider large amounts of diverse data to understand complex manufacturing systems. Matz says the company will focus more on those industries next year.
In the life sciences, cependant, the founders believe they already have a revolutionary product that's enabling a new world of discoveries. Sur toute la ligne, they see SciDB and REVEAL contributing to national and worldwide health research that will allow doctors to provide the most informed, personalized care imaginable.
"The query that every doctor wants to run is, when you come into his or her office and display a set of symptoms, the doctor asks, "Who in this national database has genetics that look like mine, symptoms that look like mine, lifestyle exposures that look like mine? And what was their diagnosis? What was their treatment? And what was their morbidity?" Stonebraker explains. "This is cross correlating you with everybody else to do very personalized medicine, and I think this is within our grasp."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.