• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Générer des données boursières réalistes pour une recherche financière plus approfondie

    Crédit :CC0 Domaine Public

    Les marchés financiers sont parmi les systèmes complexes les mieux étudiés et les mieux surveillés qui existent. Cette riche littérature sur la modélisation et l'analyse du marché a conduit à de nombreuses innovations importantes, tels que des outils automatisés de détection des manipulations de marché. Mais il existe toujours un écart important entre l'état de l'art actuel et les connaissances puissantes nécessaires pour comprendre pleinement les dimensions complexes du comportement du marché.

    Finalement, ces modèles nécessitent d'énormes volumes de données, au-delà même de ce qui est produit à partir de commandes de stock réelles. Les données sur les commandes d'actions du monde réel n'offrent aux chercheurs qu'un nombre limité, vue historique du comportement que le marché peut afficher. Les modèles nécessitent également des scénarios hypothétiques et des possibilités de branchement pour éclairer une recherche plus approfondie.

    Une équipe de l'Université du Michigan a apporté une réponse à ce besoin sous la forme de données générées automatiquement, fausses données. L'équipe, dirigé par Lynn A. Conway, professeur d'informatique et d'ingénierie Michael Wellman, propose une approche pour générer des données boursières réalistes et de haute fidélité basée sur une technique d'apprentissage en profondeur appelée réseaux contradictoires génératifs (GAN). Les flux d'ordres synthétiques qui en résultent ouvrent de nombreuses portes aux chercheurs financiers qui ont besoin d'énormes ensembles de données pour étudier les relations complexes de cause à effet qui se jouent chaque jour sur les marchés réels.

    En un mot, Les GAN fonctionnent en plaçant deux modèles d'apprentissage l'un contre l'autre, l'un appelait le « générateur » et l'autre le « discriminateur ». Les deux opèrent dans une relation concurrentielle, où le générateur apprend à cracher des données synthétiques en fonction de ce qu'il est alimenté, tandis que le discriminateur apprend à faire la différence entre les flux de données réels et faux.

    Au fur et à mesure que le discriminateur s'améliore pour attraper les contrefaçons, le générateur s'améliore pour rendre ses contrefaçons plus convaincantes. Le résultat final est un générateur capable d'imiter de très près les ensembles de données cibles; dans ce cas, flux de commandes de stock.

    Appelé Stock-GAN, l'instance utilisée par l'équipe du Michigan a été formée sur deux types de jeux de données composés d'ordres de bourse :l'un issu d'un simulateur de marché à base d'agents et l'autre d'un marché boursier réel. Ils ont évalué leurs données générées à l'aide de diverses statistiques, telles que la répartition des prix et des quantités de commandes, les délais d'inter-arrivée des commandes, et l'évolution de la meilleure offre et de la meilleure demande dans le temps. Les résultats ont montré que les données générées correspondaient étroitement aux statistiques correspondantes en données réelles, pour les marchés simulés et réels.

    Bien que ce travail ne soit qu'une première étape vers la génération de flux de commandes réalistes, dit Xintong Wang, un doctorat étudiant dans l'équipe, "Accomplir cette tâche peut aider à préparer des ensembles de données qui peuvent rendre d'autres tâches possibles."

    En particulier, de nouveaux algorithmes d'apprentissage automatique spécialisés dans le trading automatisé peuvent être formés et validés sur les jeux de données générés, et la détection automatisée des anomalies pourrait être rendue possible en comparant les données générées avec le marché réel.

    Comme Wang le dit, ce système permet essentiellement aux chercheurs en finance d'entreprendre l'alt-history, ou contrefactuel, la recherche - une technique qui n'est pas possible lorsqu'elle est limitée aux flux d'ordres du monde réel.

    "Réel, les données historiques du marché peuvent être considérées comme l'un des nombreux résultats possibles réalisés par la nature, " elle explique, "et Stock-GAN peut en générer beaucoup plus à faible coût."

    En plus de changer l'histoire, des données boursières synthétiques entièrement réalisées peuvent également aider les chercheurs en finance à explorer des scénarios hypothétiques, insérer des données spécifiques dans les flux d'ordre et observer les permutations résultantes des données futures.

    « Cela nous permet en principe d'injecter des événements dans le système et d'observer une évolution contrefactuelle du marché, " Wang dit, "Ce qui est quelque chose que nous ne pouvons jamais obtenir directement des données d'observation."

    Au-delà de la détection de comportements frauduleux ou manipulateurs, des modèles formés sur ces données pourraient offrir aux chercheurs un aperçu des différents types de pratiques commerciales légitimes exercées sur les marchés et des résultats qu'elles produisent.

    « Nous aimerions être en mesure de déterminer plus généralement quels types de stratégies les traders utilisent, " dit Wellman. " Avec cette connaissance, nous pourrions déterminer quand un flux d'ordres contient certaines stratégies."

    Les chercheurs notent également que mener des recherches financières sur des données synthétiques permet de surmonter les problèmes de confidentialité et de sécurité associés à la publication de données de trading réelles.

    "Globalement, " écrivent les auteurs, "notre travail fournit un terrain fertile pour de futures recherches à l'intersection de l'apprentissage en profondeur et de la finance."

    Cette recherche a été publiée dans l'article "Generating Realistic Stock Market Order Streams" lors de la conférence 2020 de l'Association for the Advancement of Artificial Intelligence (AAAI).


    © Science https://fr.scienceaq.com