• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Le modèle bat les analystes de Wall Street dans les prévisions financières des entreprises

    Crédit :CC0 Domaine public

    Connaître les ventes réelles d'une entreprise peut aider à déterminer sa valeur. Investisseurs, par exemple, emploient souvent des analystes financiers pour prédire les bénéfices à venir d'une entreprise à l'aide de diverses données publiques, outils de calcul, et leur propre intuition. Aujourd'hui, les chercheurs du MIT ont développé un modèle automatisé qui surpasse considérablement les humains pour prédire les ventes d'une entreprise en utilisant un nombre très limité, données "bruyantes".

    En finance, il existe un intérêt croissant pour l'utilisation de données de consommation imprécises mais fréquemment générées, appelées « données alternatives », pour aider à prédire les bénéfices d'une entreprise à des fins de trading et d'investissement. Les données alternatives peuvent comprendre les achats par carte de crédit, les données de localisation des smartphones, ou encore des images satellites montrant combien de voitures sont garées dans le stationnement d'un détaillant. Combiner des données alternatives avec des données financières factuelles plus traditionnelles mais peu fréquentes, telles que les bénéfices trimestriels, communiqués de presse, et les cours des actions - peuvent brosser un tableau plus clair de la santé financière d'une entreprise, même sur une base quotidienne ou hebdomadaire.

    Mais, jusque là, il a été très difficile d'être précis, estimations fréquentes utilisant des données alternatives. Dans un article publié cette semaine dans les Actes de la conférence ACM Sigmetrics, les chercheurs décrivent un modèle de prévision financière qui utilise uniquement des transactions hebdomadaires anonymes par carte de crédit et des rapports de revenus sur trois mois.

    Chargé de prédire les résultats trimestriels de plus de 30 entreprises, le modèle a surpassé les estimations combinées des analystes experts de Wall Street sur 57% des prédictions. Notamment, les analystes avaient accès à toutes les données privées ou publiques disponibles et à d'autres modèles d'apprentissage automatique, tandis que le modèle des chercheurs utilisait un très petit ensemble de données des deux types de données.

    "Les données alternatives sont-elles étranges, des signaux proxy pour aider à suivre les données financières sous-jacentes d'une entreprise, " dit le premier auteur Michael Fleder, un post-doctorat au Laboratoire des Systèmes d'Information et de Décision (LIDS). "Nous avons demandé, « Pouvez-vous combiner ces signaux bruyants avec des chiffres trimestriels pour estimer les véritables finances d'une entreprise à haute fréquence ? » Il s'avère que la réponse est oui."

    Le modèle pourrait donner un avantage aux investisseurs, les commerçants, ou des entreprises cherchant à comparer fréquemment leurs ventes avec celles de leurs concurrents. Au-delà de la finance, le modèle pourrait aider les sociologues et les politologues, par exemple, étudier agrégé, des données anonymes sur le comportement public. "Ce sera utile pour quiconque veut comprendre ce que font les gens, ", dit Fleder.

    Le professeur EECS Devavrat Shah, rejoint Fleder sur le papier, qui est le directeur du Statistics and Data Science Center du MIT, membre du Laboratoire des Systèmes d'Information et de Décision, chercheur principal pour le MIT Institute for Foundations of Data Science, et professeur adjoint à l'Institut de recherche fondamentale Tata.

    S'attaquer au problème des « petites données »

    Pour le meilleur ou pour le pire, beaucoup de données sur les consommateurs sont à vendre. Détaillants, par exemple, peut acheter des transactions par carte de crédit ou des données de localisation pour voir combien de personnes achètent chez un concurrent. Les annonceurs peuvent utiliser les données pour voir l'impact de leurs publicités sur les ventes. Mais obtenir ces réponses repose toujours principalement sur les humains. Aucun modèle d'apprentissage automatique n'a été en mesure de calculer correctement les chiffres.

    Contre-intuitivement, le problème est en fait le manque de données. Chaque apport financier, comme un rapport trimestriel ou un total hebdomadaire de carte de crédit, n'est qu'un nombre. Les rapports trimestriels sur deux ans ne totalisent que huit points de données. Données de carte de crédit pour, dire, chaque semaine au cours de la même période n'est que d'environ 100 autres points de données « bruyants », ce qui signifie qu'ils contiennent des informations potentiellement ininterprétables.

    "Nous avons un problème de 'petites données', " dit Fleder. " Vous n'obtenez qu'une infime partie de ce que les gens dépensent et vous devez extrapoler et déduire ce qui se passe réellement à partir de cette fraction de données. "

    Pour leur travail, les chercheurs ont obtenu des transactions par carte de crédit à la consommation - à intervalles généralement hebdomadaires et bihebdomadaires - et des rapports trimestriels pour 34 détaillants de 2015 à 2018 d'un fonds spéculatif. Dans toutes les entreprises, ils ont rassemblé 306 quarts de données au total.

    Le calcul des ventes quotidiennes est assez simple dans son concept. Le modèle suppose que les ventes quotidiennes d'une entreprise restent similaires, que légèrement décroissant ou croissant d'un jour à l'autre. Mathématiquement, cela signifie que les valeurs des ventes pour des jours consécutifs sont multipliées par une valeur constante plus une valeur de bruit statistique, ce qui capture une partie du caractère aléatoire inhérent aux ventes d'une entreprise. Les soldes de demain, par exemple, égal aux ventes d'aujourd'hui multipliées par, dire, 0,998 ou 1,01, plus le nombre estimé pour le bruit.

    Si on leur donne des paramètres de modèle précis pour la constante quotidienne et le niveau de bruit, un algorithme d'inférence standard peut calculer cette équation pour produire une prévision précise des ventes quotidiennes. Mais l'astuce consiste à calculer ces paramètres.

    Démêler les chiffres

    C'est là que les rapports trimestriels et les techniques de probabilité sont utiles. Dans un monde simple, un rapport trimestriel pourrait être divisé par, dire, 90 jours pour calculer les ventes quotidiennes (ce qui implique que les ventes sont à peu près constantes au jour le jour). En réalité, les ventes varient d'un jour à l'autre. Aussi, inclure des données alternatives pour aider à comprendre comment les ventes varient sur un trimestre complique les choses :en plus d'être bruyant, les données de carte de crédit achetées se composent toujours d'une fraction indéterminée du total des ventes. Tout cela rend très difficile de savoir exactement comment les totaux des cartes de crédit sont pris en compte dans l'estimation globale des ventes.

    "Cela demande un peu de démêler les chiffres, " dit Fleder. " Si nous observons 1 pour cent des ventes hebdomadaires d'une entreprise par le biais de transactions par carte de crédit, comment savons-nous que c'est 1%? Et, si les données de la carte de crédit sont bruyantes, comment savoir à quel point c'est bruyant ? Nous n'avons pas accès à la vérité terrain pour les totaux des ventes quotidiennes ou hebdomadaires. Mais les agrégats trimestriels nous aident à raisonner sur ces totaux."

    Faire cela, les chercheurs utilisent une variante de l'algorithme d'inférence standard, appelé filtrage de Kalman ou propagation des croyances, qui a été utilisé dans diverses technologies, des navettes spatiales au GPS pour smartphone. Le filtrage de Kalman utilise des mesures de données observées dans le temps, contenant des inexactitudes de bruit, pour générer une distribution de probabilité pour des variables inconnues sur une période donnée. Dans les travaux des chercheurs, cela signifie estimer les ventes possibles d'une seule journée.

    Pour entraîner le modèle, la technique décompose d'abord les ventes trimestrielles en un nombre déterminé de jours mesurés, disons 90, ce qui permet aux ventes de varier d'un jour à l'autre. Puis, il correspond à l'observé, données de carte de crédit bruyantes à des ventes quotidiennes inconnues. En utilisant les chiffres trimestriels et quelques extrapolations, il estime la fraction des ventes totales que les données de carte de crédit représentent probablement. Puis, il calcule chaque jour la fraction des ventes observées, niveau de bruit, et une estimation d'erreur pour la façon dont il a fait ses prédictions.

    L'algorithme d'inférence branche toutes ces valeurs dans la formule pour prédire les totaux des ventes quotidiennes. Puis, il peut additionner ces totaux pour obtenir chaque semaine, mensuel, ou des numéros trimestriels. Dans les 34 entreprises, le modèle a battu un indice de référence consensuel – qui combine les estimations des analystes de Wall Street – sur 57,2% des 306 prévisions trimestrielles.

    Prochain, les chercheurs conçoivent le modèle pour analyser une combinaison de transactions par carte de crédit et d'autres données alternatives, telles que les informations de localisation. "Ce n'est pas tout ce que nous pouvons faire. C'est juste un point de départ naturel, ", dit Fleder.


    © Science https://fr.scienceaq.com