- Prétraitement :
1. Les images sont redimensionnées à une résolution fixe.
2. La normalisation des couleurs est appliquée pour supprimer les variations d'éclairage.
- Extraction de fonctionnalités :
1. Les réseaux de neurones convolutifs profonds (CNN) sont utilisés pour extraire des caractéristiques puissantes et discriminantes des images.
2. L'architecture CNN est formée sur un vaste ensemble de données d'images avec des étiquettes de texte associées.
- Génération de sous-titres :
1. Un réseau neuronal récurrent (RNN) est utilisé pour générer des légendes pour les images basées sur les caractéristiques extraites.
2. Le RNN est formé pour maximiser la probabilité d'obtenir la légende correcte compte tenu des caractéristiques de l'image.
- Modèle de langage :
1. Un modèle de langage supplémentaire est utilisé pour améliorer l'exactitude grammaticale et la fluidité des sous-titres générés.
2. Le modèle linguistique est formé sur un vaste corpus de données textuelles.
Algorithme :
1. Saisie :
- Image
- Modèle CNN pré-entraîné
- Modèle RNN pré-entraîné
- Modèle de langage
2. Étapes :
1. Redimensionnez et normalisez les couleurs de l'image d'entrée.
2. Extrayez les caractéristiques profondes de l'image à l'aide du modèle CNN.
3. Générez une légende initiale pour l'image à l'aide du modèle RNN.
4. Affinez la légende en appliquant le modèle de langage.
5. Sortie :
- Une légende en langage naturel pour l'image d'entrée.
Ensembles de données :
- COCO (Common Objects in Context) :un ensemble de données d'images à grande échelle avec des annotations d'objets et des légendes de texte.
- Flickr8k :un ensemble de données de 8 000 images avec des légendes écrites par des humains.
- Flickr30k :un ensemble de données plus vaste contenant 30 000 images et légendes écrites par des humains.
Évaluation :
- Métriques :
- BLEU (Bilingual Evaluation Understudy) :Mesure la similarité entre les légendes générées et les légendes de référence écrites par l'homme.
- METEOR (Metric for Evaluation of Translation with Explicit Ordering) :Une autre mesure de similarité entre les sous-titres générés et de référence.
- CIDEr (Consensus-based Image Description Evaluation) :une métrique qui prend en compte le consensus entre plusieurs juges humains.