Crédit :CC0 Domaine public
La technologie avance à pas de géant, et avec elle, l'information avec laquelle la société fonctionne quotidiennement. Néanmoins, le volume de données doit être organisé, analysés et corrélés pour prédire certains modèles. C'est l'une des fonctions principales de ce qu'on appelle le Big Data.
Les chercheurs du groupe de recherche KIDS du département d'informatique et d'analyse numérique de l'Université de Cordoue ont pu améliorer les modèles qui prédisent plusieurs variables simultanément sur la base du même ensemble de variables d'entrée, réduisant ainsi la taille des données nécessaires à une prévision précise. Un exemple en est une méthode qui prédit plusieurs paramètres liés à la qualité du sol sur la base d'un ensemble de variables telles que les cultures plantées, le travail du sol et l'utilisation de pesticides.
"Lorsque vous traitez un grand volume de données, il y a deux solution. Soit vous augmentez les performances de l'ordinateur, ce qui est très cher, soit vous réduisez la quantité d'informations nécessaires au bon déroulement du processus, " dit le chercheur Sebastian Ventura, l'un des auteurs de l'article de recherche.
Lors de la construction d'un modèle prédictif, des résultats fiables dépendent de deux éléments :le nombre de variables qui entrent en jeu et le nombre d'exemples entrés dans le système. Avec l'idée que moins c'est plus, l'étude a pu réduire le nombre d'exemples en éliminant ceux qui sont redondants ou "bruyants, " et qui n'apportent donc aucune information utile pour la création d'un meilleur modèle prédictif.
Comme Oscar Reyes, l'auteur principal de la recherche, souligne "nous avons développé une technique qui peut vous dire de quel ensemble d'exemples vous avez besoin afin que la prévision soit non seulement fiable mais pourrait même être meilleure." Dans certaines bases de données, sur les 18 qui ont été analysés, ils ont pu réduire la quantité d'informations de 80 % sans affecter les performances prédictives, ce qui signifie que moins de la moitié des données originales ont été utilisées. Tout ça, dit Reyes, « signifie économiser de l'énergie et de l'argent dans la construction d'un modèle, car moins de puissance de calcul est nécessaire. c'est aussi gagner du temps, ce qui est intéressant pour les applications qui fonctionnent en temps réel, car "il n'est pas logique qu'un modèle prenne une demi-heure à s'exécuter si vous avez besoin d'une prédiction toutes les cinq minutes."
Systèmes qui prédisent plusieurs variables liées simultanément, connus sous le nom de modèles de régression multi-sorties, gagnent en importance en raison du large éventail d'applications qui pourraient être analysées sous ce paradigme d'apprentissage automatique, comme celles liées aux soins de santé, la qualité d'eau, systèmes de refroidissement pour les bâtiments et études environnementales.