Quand les scientifiques, les économistes ou les statisticiens font des prédictions basées sur la théorie et rassemblent ensuite des données réelles, ils ont besoin d'un moyen de mesurer la variation entre les valeurs prédites et mesurées. Ils s'appuient généralement sur l'erreur quadratique moyenne (MSE), qui est la somme des variations des points de données individuels au carré et divisée par le nombre de points de données moins 2. Lorsque les données sont affichées sur un graphique, vous déterminez le MSE par additionner les variations dans les points de données de l'axe vertical. Sur un graphe x-y, ce serait les valeurs y.
Pourquoi mettre les variations en carré?
Multiplier la variation entre les valeurs prédites et observées a deux effets souhaitables. Le premier est de s'assurer que toutes les valeurs sont positives. Si une ou plusieurs valeurs étaient négatives, la somme de toutes les valeurs pourrait être irréaliste et représenterait mal la variation réelle entre les valeurs prédites et observées. Le deuxième avantage de la quadrature est de donner plus de poids aux plus grandes différences, ce qui garantit qu'une grande valeur pour MSE signifie de grandes variations de données.
Exemple d'algorithme de calcul de calcul
Supposons que vous ayez un algorithme qui prédit les prix d'un stock particulier sur une base quotidienne. Lundi, il prédit que le cours de l'action sera de 5,50 $, le mardi de 6,00 $, le mercredi de 6,00 $, le jeudi de 7,50 $ et le vendredi de 8,00 $. Considérant lundi comme jour 1, vous avez un ensemble de points de données qui apparaît comme ceci: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) et (5, 8.00). Les prix réels sont les suivants: Lundi 4,75 $ (1, 4,75); Mardi 5,35 $ (2, 5,35); Mercredi 6,25 $ (3, 6,25); Jeudi 7,25 $ (4, 7,25); et vendredi: 8,50 $ (5, 8,50).
Les variations entre les valeurs y de ces points sont respectivement de 0,75, 0,65, -0,25, 0,25 et -0,50, où le signe négatif indique une valeur prédite plus petite que celui observé. Pour calculer MSE, vous devez d'abord ajuster chaque valeur de variation, ce qui élimine les signes moins et donne 0,5625, 0,4225, 0,0625, 0,0625 et 0,25. En additionnant ces valeurs, on obtient 1,36 et en divisant par le nombre de mesures moins 2, soit 3, on obtient le MSE, qui est de 0,45.
MSE et RMSE
Des valeurs plus petites pour MSE indiquent un accord plus étroit entre les résultats prévus et observés, et un MSE de 0.0 indique un accord parfait. Il est important de se rappeler, cependant, que les valeurs de variation sont au carré. Lorsqu'une mesure d'erreur est requise dans les mêmes unités que les points de données, les statisticiens prennent l'erreur quadratique moyenne (RMSE). Ils l'obtiennent en prenant la racine carrée de l'erreur quadratique moyenne. Pour l'exemple ci-dessus, le RSME serait de 0,671 ou environ 67 cents.