Des chercheurs apprennent aux ordinateurs à nommer des images en

Des chercheurs apprennent aux ordinateurs à nommer des images en « pensant »

Méthode :

- Prétraitement :

1. Les images sont redimensionnées à une résolution fixe.

2. La normalisation des couleurs est appliquée pour supprimer les variations d'éclairage.

- Extraction de fonctionnalités :

1. Les réseaux de neurones convolutifs profonds (CNN) sont utilisés pour extraire des caractéristiques puissantes et discriminantes des images.

2. L'architecture CNN est formée sur un vaste ensemble de données d'images avec des étiquettes de texte associées.

- Génération de sous-titres :

1. Un réseau neuronal récurrent (RNN) est utilisé pour générer des légendes pour les images basées sur les caractéristiques extraites.

2. Le RNN est formé pour maximiser la probabilité d'obtenir la légende correcte compte tenu des caractéristiques de l'image.

- Modèle de langage :

1. Un modèle de langage supplémentaire est utilisé pour améliorer l'exactitude grammaticale et la fluidité des sous-titres générés.

2. Le modèle linguistique est formé sur un vaste corpus de données textuelles.

Algorithme :

1. Saisie :

- Image

- Modèle CNN pré-entraîné

- Modèle RNN pré-entraîné

- Modèle de langage

2. Étapes :

1. Redimensionnez et normalisez les couleurs de l'image d'entrée.

2. Extrayez les caractéristiques profondes de l'image à l'aide du modèle CNN.

3. Générez une légende initiale pour l'image à l'aide du modèle RNN.

4. Affinez la légende en appliquant le modèle de langage.

5. Sortie :

- Une légende en langage naturel pour l'image d'entrée.

Ensembles de données :

- COCO (Common Objects in Context) :un ensemble de données d'images à grande échelle avec des annotations d'objets et des légendes de texte.

- Flickr8k :un ensemble de données de 8 000 images avec des légendes écrites par des humains.

- Flickr30k :un ensemble de données plus vaste contenant 30 000 images et légendes écrites par des humains.

Évaluation :

- Métriques :

- BLEU (Bilingual Evaluation Understudy) :Mesure la similarité entre les légendes générées et les légendes de référence écrites par l'homme.

- METEOR (Metric for Evaluation of Translation with Explicit Ordering) :Une autre mesure de similarité entre les sous-titres générés et de référence.

- CIDEr (Consensus-based Image Description Evaluation) :une métrique qui prend en compte le consensus entre plusieurs juges humains.

Les logiciels anti-piratage présents sur les jeux vidéo ouvrent-ils des risques de sécurité sur les ordinateurs des utilisateurs ?

Rationnel ou aléatoire ? Le modèle montre comment les gens envoient des e-mails

Électronique

Le codage de l'incertitude augmente la sécurité

Comment les sociétés américaines de jeux vidéo créent des outils pour l'État de surveillance chinois

Le chef de Tesla, Musk, appelle les travailleurs à aider à livrer des voitures

Science

Nouvel éclairage sur la fabrication de polymères bidimensionnels

Sur les disques durs américains, un modèle 3D précis de Notre-Dame

Qu'est-ce que la récupération de pétrole secondaire?

Science

Électronique

Le chiffre d'affaires de Baidu au deuxième trimestre dépasse les attentes mais les bénéfices baissent

Une crypto-monnaie dans le vent à l'ouverture d'une mine en Estonie

Cannes brandit un rameau d'olivier en ligne avec Netflix

Ces batteries lithium-ion ne peuvent pas s'enflammer car elles durcissent à l'impact

l'UE pour réduire les coûts de téléphone, mettre en place un système d'alerte d'urgence

Pourquoi les parents devraient réfléchir à deux fois au suivi des applications pour leurs enfants

Science

Les astronomes détectent 22 nouvelles variables cataclysmiques dans l'amas globulaire 47 Tucanae

Glitter aide à surveiller les vagues de l'océan

Développement d'une nouvelle technique de biosaccharification consolidée pour la conversion de la lignocellulose