Une photo originale (à gauche); la même photo recadrée par la technologie existante, tels que le logiciel dans les smartphones ; et la même photo recadrée par le modèle des chercheurs pour contenir la partie visuellement significative de la photo. Crédit :James Wang et Jia Li / Penn State
Les ordinateurs peuvent désormais recadrer automatiquement les photos pour capturer la partie la plus intéressante d'une manière esthétique, grâce aux chercheurs de Penn State.
"Lors du recadrage manuel d'une image, les humains identifient la partie la plus intéressante ou la plus accrocheuse de la photo - même si elle est décentrée - et recadrent la photo pour l'encadrer, mais les outils existants recadrent les photos au milieu de l'image, sans tenir compte du fait que cette section contient une partie visuellement significative de la photo, " dit Jia Li, professeur de statistiques, qui, avec son collègue James Wang, professeur de sciences et technologies de l'information, a récemment reçu le brevet américain n° 10, 186, 040 pour le modèle. "Nous avons résolu ce problème en créant un modèle statistique qui identifie rapidement la signification visuelle de chaque partie segmentée d'une photo et recadre la photo globale d'une manière esthétique."
Selon les chercheurs, le logiciel pourrait être utilisé dans les smartphones, sur les réseaux sociaux et sur les navigateurs internet, où les photos sont traditionnellement recadrées automatiquement au milieu, manquant souvent le sujet principal ou donnant un résultat esthétiquement déplaisant.
L'équipe a modélisé la durée pendant laquelle un œil humain est susceptible de s'attarder sur un segment particulier d'une image à l'aide d'une chaîne de Markov, qui est un modèle statistique. L'attention portée à n'importe quel segment dépend de ses attributs individuels tels que la couleur, texture et luminosité, ainsi que sa relation spatiale avec d'autres segments. Les chercheurs ont codé tous ces différents types d'informations dans les paramètres de la chaîne de Markov. Le modèle statistique classe ensuite les segments, avec l'importance la plus élevée attribuée au segment qui retient l'œil le plus longtemps. Cet ordre aide le modèle à déterminer le meilleur emplacement pour le recadrage. La décision prend également en compte la qualité esthétique de l'image recadrée.
"La disposition spatiale des segments dans une image joue un rôle majeur dans la détermination de la signification, " a déclaré Li. " Le modèle considère comment les segments interagissent spatialement, sans supposer que le centre géométrique de l'image est nécessairement plus important. Par exemple, deux segments ayant la même apparence peuvent avoir des scores de signification assez différents en fonction de leur placement par rapport au reste de l'image."
Selon Li et Wang, le modèle fonctionne rapidement pour recadrer les photos et nécessite très peu de puissance de calcul.
"Notre code prend environ 50 millisecondes pour traiter une image de 400 par 300 pixels sur un ordinateur de bureau ou portable courant, " a déclaré Wang. " En conséquence, notre méthode convient aux appareils dotés d'une mémoire et d'une puissance de calcul limitées."
L'équipe espère commercialiser sa méthode auprès des moteurs de recherche Internet et des sociétés de téléphonie mobile, entre autres.
"En recadrant les photos d'une manière plus esthétique, un certain nombre d'applications liées à la photo peuvent être améliorées, surtout lorsque la taille de l'écran est petite, comme dans les téléphones, montres ou tablettes, " a déclaré Wang. " De plus, le modèle peut aider les entreprises de publicité visuelle à améliorer leurs taux de clics."