Comment les images sont-elles placées dans l'ordre dans lequel elles apparaissent sur Google Images ?
Un moteur de recherche a tendance à s'appuyer sur le texte associé à ces images pour les classer dans la recherche d'images. Il peut s'agir d'un texte alternatif associé à l'image, d'une légende ou d'un autre texte qui apparaît sur une page près de l'image.
Certaines autres informations peuvent également être utilisées pour classer ces images, telles que la pertinence de la page sur laquelle une image apparaît pour le terme de requête recherché et la quantité et la qualité des liens pointant vers la page.
Si vous cherchez un guide pratique pour optimiser le référencement de vos images sur Google, référer vous à l’article optimiser ses images pour le SEO.
Perception des machines
Perception des machines ou Perception machine en anglais est la science derrière la compréhension des machines pour les images, vidéos et sons.
Tout comme la recherche d'informations, la science derrière les moteurs de recherche, cette science vise a faire comprendre à une machine les éléments cités précédemment. Elle est donc complémentaire a la recherche d'informations pour les moteurs de recherche comme Google.
Inception est un bon exemple pour cette science, notamment pour la reconnaissance d'objets.
Un PageRank pour les images
Le brevet "PageRank for Product Image Search" de Google concerne l'utilisation de l'algorithme PageRank de Google pour améliorer les résultats de recherche d'images de produits.
L'algorithme PageRank est un algorithme utilisé par Google pour classer les pages web dans les résultats de recherche en fonction de leur pertinence et de leur importance. Il fonctionne en analysant les liens entrants et sortants d'une page web pour déterminer sa pertinence et sa qualité.
Dans le cadre de ce brevet, Google utilise une version modifiée de l'algorithme PageRank pour évaluer la pertinence des images de produits en fonction des liens entrants et sortants des pages de produits sur lesquelles ces images apparaissent. Ainsi, les images de produits apparaissant sur des pages de produits de haute qualité et pertinence seront considérées comme étant plus pertinentes dans les résultats de recherche.
Ce brevet vise à améliorer les résultats de recherche d'images de produits en mettant en avant les images de produits les plus pertinentes et les plus utiles pour les utilisateurs. Cela peut aider les utilisateurs à trouver plus facilement les produits qu'ils recherchent, ce qui est bénéfique pour les entreprises qui vendent ces produits et pour les utilisateurs qui cherchent à les acheter.
Classement des images, un brevet de Microsoft :
Classement des images pour la récupération d'images Web
Attribué à Microsoft
Un programme d'exploration Web explore le Web pour collecter des images et du texte qui apparaissent sur les mêmes pages que ces images. Il peut stocker tout le texte de ces pages dans une base de données, ou seulement le texte qui se trouve à une certaine distance des images. Les moteurs de recherche utilisent des robots d'exploration spécifiques pour parcourir les images des sites Web.
Tout d'abord, les moteurs de recherche associent des mots-clés aux images qui pourraient être utilisées comme requêtes de recherche. Bien que ce brevet soit de Microsoft et non de Google, il peut fournir des pistes intéressantes aux référenceurs holistiques. Il est donc utile de le lire.
Quelques facteurs de classement d'images pouvant être utilisés dans la recherche d'images
Nombre de sites Web contenant une image identique
Les images qui apparaissent sur plusieurs sites Web peuvent être plus pertinentes pour un terme de requête que les images qui n'apparaissent que sur un seul site Web, ou elles peuvent être considérées comme moins pertinentes.
Trouver si les images sont identiques peut signifier chercher à voir si les images affichées sur différentes pages sont réellement à la même adresse.
Des images identiques qui ne sont pas à la même adresse peuvent être comparées en les réduisant électroniquement à une valeur de hachage lisible par ordinateur et en les comparant les unes aux autres.
Cette méthode est souvent utilisée pour lutter contre le contenu dupliqué et améliorer la pertinence des résultats de recherche d'images.
Les images qui sont considérées comme identiques peuvent être regroupées et classées ensemble, ce qui peut aider à fournir une expérience utilisateur plus cohérente et de meilleure qualité.
Nombre de sites Web contenant une image similaire
Suivant éventuellement le même raisonnement que ci-dessus, le texte associé à des versions similaires d'images sur différentes pages peut renforcer la pertinence d'une image par rapport au texte ou peut la rendre moins pertinente en fonction de la similitude du texte sur les différentes pages.
Une image similaire est une image qui est redimensionnée pour être plus grande ou plus petite, ou qui a été recadrée pour ne contenir qu'une partie d'une autre image, ou à laquelle une bordure a été ajoutée.
La similitude entre les images peut être déterminée en comparant les valeurs de hachage électroniques des images. Cependant, il est important de noter que les images qui sont très similaires mais qui ont des valeurs de hachage électroniques différentes peuvent encore être considérées comme des images distinctes
Taille des images
Selon le brevet, les images comportant plus de pixels pourraient être classées plus haut car elles sont plus susceptibles d'être cliquées par les utilisateurs. Cependant, il est également possible que des images avec un nombre inférieur de pixels soient classées plus haut que des images avec un grand nombre de pixels.
Fréquence d'une image dans un site Web
Le classement des images pour certains mots-clés peut être influencé à la fois positivement et négativement par le nombre de fois qu'elles sont utilisées sur le même site Web, que ce soit sur plusieurs pages ou plusieurs fois sur la même page. Toutefois, si une image fait partie de la conception graphique du site, telle qu'une puce de liste, plutôt que d'avoir une signification propre, elle pourrait être classée plus bas. En revanche, si l'image a une signification propre, telle qu'un logo pour le site, elle pourrait recevoir un meilleur classement.
Niveaux de fonctionnalité d'image
Les caractéristiques d'une image peuvent avoir un impact sur le classement des images, telles que la résolution, le format, la taille du fichier, l'entropie et le dégradé de l'image. Bien que l'on ne sache pas comment ces facteurs sont pris en compte pour la pertinence d'une image, il est possible qu'ils soient utilisés pour mesurer la qualité ou l'importance de l'image. Cela pourrait également être lié à l'idée que des images de haute qualité peuvent améliorer l'expérience utilisateur.
On peut se dire également qu’une image modifiée pour attirer l'œil serait bénéfique et favoriser par les algorithmes puisque cela augmenterait l'expérience des utilisateurs, et plus particulièrement le taux de clic ainsi que potentiellement le temps de séjour.
Autres facteurs de classement des images
Le classement des images peut être influencé par différentes mesures liées à leur présence sur une page web, notamment :
- Le nombre total d'images présentes sur la page
- Le nombre d'images liées à une page spécifique
- Le nombre d'images miniatures présentes sur la même page que l'image en question
- Le nombre de liens pointant vers l'URL de l'image.
Pondération du texte en fonction de sa distance à une image
On peut considérer qu'un texte plus proche d'une image sur une page Web peut être plus pertinent par rapport au sujet de l'image qu'un texte plus éloigné.
Pour calculer cette distance, il est possible d'examiner différents éléments, tels que :
- Le nombre de mots qui séparent le texte et l'image, b) Le nombre de points d'arrêt tels que "." "?" "!" et d'autres signes de ponctuation entre le texte et l'image
- Le nombre de balises de données de tableau intermédiaires (<td>) entre le texte et l'image
- Le nombre de balises de lignes de tableau intermédiaires (<tr>) entre le texte et l'image.
Googlebot lit-il le texte dans les images ?
Google a acquis la société de reconnaissance faciale et d'objets Nevenvision en 2006, ainsi que quelques autres sociétés capables de reconnaître des images.
En 2007, Google a obtenu un brevet qui utilisait l'OCR (reconnaissance optique de caractères) permettant de vérifier les adresses postales sur les listes d'entreprises, et ainsi vérifier ces entreprises dans Google Maps. Database assisted OCR for street scenes and other images.
En 2011, Google a publié une demande de brevet qui utilisait une gamme de fonctionnalités de reconnaissance (objet, visage, codes-barres, repères, texte, produits, entités nommées liées au Google Knowledge Graph) axées sur la recherche et la compréhension de requêtes visuelles, qui semblent avoir tourné dans la demande de Google Goggles , sortie en septembre 2010 - le brevet des requêtes visuelles a été déposé par Google en août 2010, la proximité dans le temps avec le dépôt du brevet et l'introduction de Google Goggles renforce l'idée qu'elles sont liées. User Interface for Presenting Search Results for Multiple Regions of a Visual Query
Google Goggles était une application mobile de reconnaissance d'images développée par Google. Il a été utilisé pour les recherches basées sur des photos prises par des appareils portables. Par exemple, prendre une photo d'un point de repère célèbre recherchant des informations à son sujet, ou prendre une photo du code-barres d'un produit chercherait des informations sur le produit.
Google a obtenu un brevet similaire en 2012 qui lit les panneaux dans les bâtiments dans les images Street Views. https://patents.google.com/patent/US8280891
2007 Méthode et appareil pour annoter automatiquement des images - Celui-ci recherche des images similaires, et lorsqu'il les trouve, il peut alors utiliser le texte associé à ces images similaires pour créer une annotation pour l'image recherchée à l'origine.
2012 : Requêtes de regroupement pour la recherche d'images - Une recherche d'images peut être effectuée pour trouver des images similaires ; les résultats de cette recherche peuvent être pré-groupés ou classés sur la base d'une similarité visuelle et sémantique et regroupés en grappes. Chacun des groupes peut être associé à des termes de recherche qui pourraient leur être associés pour être utilisés comme annotation.
Identification des documents canoniques correspondants en réponse à une requête visuelle et conformément aux informations géographiques https://patents.google.com/patent/US20120134590A1/en
Ce brevet indique que Google est en mesure d'effectuer des recherches d'images de documents et de renvoyer des résultats correspondants, où le texte sur le document interrogé passe par OCR (Optical Character Recognition) , et les mots du document sont recherchés pour trouver des documents correspondants sur le Web (images de documents), ce qui signifierait que Google commencerait à indexer des images de texte sur le Web.
Si c'est le cas, Google pourrait également commencer à utiliser des images d'adresses comme emplacements des entreprises sur lesquelles elles apparaissent sous forme de texte. Il pouvait également commencer à comprendre le texte des images dans la navigation et à créer des liens de sites là où il ne le faisait pas auparavant.
Brevet Google pour la classification d'images lors de l'identification de points de repère dans des collections d'images
Google a obtenu un brevet qui se concentre sur l'identification de points de repère populaires dans de grandes collections d'images numériques.
Cependant, aucun système connu ne peut extraire automatiquement des informations telles que les destinations touristiques les plus populaires de ces grandes collections. Comme de nombreuses nouvelles photographies sont ajoutées à ces collections d'images numériques, il peut ne pas être possible pour les utilisateurs d'étiqueter manuellement les photographies pour augmenter l'utilité de ces collections d'images numériques. Par conséquent, ce qu'il faut, ce sont des systèmes et des procédés capables d'identifier et d'étiqueter automatiquement des points de repère populaires dans de grandes collections d'images numériques.
Comment cela pourrait-il jouer dans la classification des images et la recherche impliquant des points de repère ?
Le brevet est :
Découverte automatique de points de repère populaires
Dépôt : 3 octobre 2016
Cessionnaire : Google LLC
Le brevet expose une série d'étapes pour intégrer son système de classification d'images dans les recherches, qui se déroulent comme suit :
- Améliorer les requêtes des utilisateurs pour récupérer des images de points de repère en recevant la requête de l'utilisateur.
- Identifier un ou plusieurs mots-clés dans la requête de l'utilisateur.
- Sélectionner une ou plusieurs balises correspondantes à partir d'une base de données de points de repère correspondant au(x) mot(s)-clé(s).
- Compléter la requête de l'utilisateur avec la ou les balises correspondantes, générant ainsi une requête complétée.
En plus de cela, le brevet de classification d'images suggère qu'il pourrait également être utilisé pour marquer automatiquement de nouvelles images numériques en effectuant les actions suivantes :
- Comparer la nouvelle image numérique avec des images dans une base de données d'images de points de repère, qui contient des groupes visuels d'images d'un ou plusieurs points de repère.
- Étiqueter la nouvelle image numérique avec au moins une étiquette basée sur au moins l'un de ces groupes visuels.
Abstrait
Dans un mode de réalisation, la présente invention est un procédé de remplissage et de mise à jour d'une base de données d'images de points de repère, comprenant le regroupement géographique d'images géomarquées en fonction de la proximité géographique pour générer un ou plusieurs regroupements géographiques et le regroupement visuel du ou des regroupements géographiques. -des clusters selon la similarité des images pour générer un ou plusieurs clusters visuels. Dans un autre mode de réalisation, la présente invention est un système d'identification de repères à partir d'images numériques, comprenant les composants suivants : une base de données d'images géomarquées, une base de données de repères ; un module de regroupement géographique ; et un module de regroupement visuel. Dans d'autres modes de réalisation, la présente invention peut améliorer les requêtes d'utilisateurs pour récupérer des images de points de repère ou un procédé de marquage automatique d'une nouvelle image numérique avec des étiquettes de texte.
Une classification d'image encore plus intelligente des points de repère ?
Ce système est apparemment capable d'identifier les points de repère populaires dans les collections de photos sur le Web et de les stocker dans une base de données de points de repère, avec une possibilité de les regrouper par emplacement géographique. Cette initiative est intéressante à considérer. En intégrant ces images de points de repère aux résultats de recherche d'images, Google ne s'arrête pas là pour la classification d'images. En effet, un autre brevet intitulé "méthodes et systèmes de classification d'images à l'aide de modèles sémantiques et esthétiques" suggère qu'il existe d'autres moyens pour classer les images.
Le brevet de Google indique que les images sont classées en fonction d'une ontologie liée aux sujets des images. Par exemple, lors d'une recherche d'images Google pour un point de repère comme le Washington Monument, plusieurs étiquettes de classification d'image apparaissent en haut des résultats, sur lesquelles vous pouvez cliquer pour affiner les résultats en fonction d'aspects spécifiques de ces monuments. Ainsi, la classification des images peut inclure des monuments spécifiques, ainsi que des classifications encore plus précises. Cela permet à Google d'avoir une classification d'image plus intelligente en ce qui concerne les points de repère, tout en les étiquetant de manière à ce qu'ils soient plus significatifs.
Requêtes d'image désambiguïser chez Google
Mieux comprendre les requêtes d'images
Ce brevet est : Requêtes de désambiguïsation contextuelle
Cessionnaire : Google LLC
Octroi : 18 février 2020
Dépôt : 20 mars 2017
Abstrait
L'invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur un support de stockage informatique, pour des requêtes de désambiguïsation contextuelle. Dans un aspect, un procédé comprend la réception d'une image présentée sur un écran d'un dispositif informatique et une transcription d'un énoncé prononcé par un utilisateur du dispositif informatique, l'identification d'une sous-image particulière qui est incluse dans l'image, et basée sur effectuer une reconnaissance d'image sur la sous-image particulière, déterminer une ou plusieurs premières étiquettes qui indiquent un contexte de la sous-image particulière. Le procédé comprend également, sur la base de la réalisation d'une reconnaissance de texte sur une partie de l'image autre que la sous-image particulière, la détermination d'une ou plusieurs secondes étiquettes qui indiquent le contexte de la sous-image particulière, sur la base de la transcription, les premières étiquettes, et les deuxièmes étiquettes.
Google a reçu un brevet pour afficher des résultats d'images qui identifient les objets présents dans des photographies et des vidéos. Toutefois, les moteurs de recherche peuvent parfois avoir du mal à comprendre les requêtes formulées en langage naturel. Le brevet se concentre donc sur la résolution des ambiguïtés dans les requêtes d'images.
L'exemple donné dans le brevet est le suivant : un utilisateur peut poser une question telle que "Qu'est-ce que c'est ?" concernant une photographie qu'il est en train de regarder sur un appareil informatique. Cette méthode peut fonctionner pour les requêtes d'images, de texte ou de vidéo, ou pour une combinaison de ces éléments.
Ainsi, pour répondre à une demande d'identification d'images, un dispositif informatique peut capturer l'image en question, transcrire la question, et transmettre cette transcription ainsi que l'image à un serveur.
Ce que le serveur peut faire avec les requêtes d'image
Le serveur peut recevoir la transcription et l'image du dispositif informatique et ensuite effectuer les étapes suivantes :
- Identifier le contenu visuel et textuel de l'image
- Générer des étiquettes pour les éléments dans l'image tels que les lieux, les entités, les noms, les types d'animaux, etc.
- Reconnaître une sous-image spécifique dans l'image, qui peut être une photographie ou un dessin.
Dans un premier temps, le serveur peut :
- Identifier une partie de la sous-image d'intérêt principal pour un chercheur, telle qu'un point de repère historique dans l'image.
- Effectuer une reconnaissance d'image sur la sous-image pour générer des étiquettes pour cette sous-image.
- Générer des étiquettes pour le texte dans l'image, comme les commentaires sur la sous-image, en utilisant la reconnaissance de texte sur une partie de l'image qui n'est pas la sous-image.
- Créer une requête de recherche basée sur la transcription et les étiquettes générées.
Fournir cette requête à un moteur de recherche.
Le processus derrière la désambiguïsation d'une requête visuelle
Le processus décrit implique les étapes suivantes :
- Recevoir une image présentée sur un dispositif informatique, ou correspondant à une partie de son écran
- Comprendre la transcription d'une demande prononcée par un chercheur lors de la présentation de l'image
- Reconnaître une sous-image incluse dans l'image en effectuant une reconnaissance d'image sur la sous-image
- Déterminer les premières étiquettes pour montrer le contexte de la sous-image particulière
- Effectuer une reconnaissance de texte sur une partie de l'image autre que la sous-image particulière
- Créer des deuxièmes étiquettes pour montrer le contexte de la sous-image en fonction de la transcription, des premières et des deuxièmes étiquettes
- Compiler une requête de recherche
- Fournir la requête de recherche en tant que sortie.
D'autres aspects de l'exécution de telles recherches de requêtes d'images peuvent impliquer :
Le processus comprend la pondération différenciée des premières et deuxièmes étiquettes. En fonction des termes de la transcription, la requête de recherche peut remplacer les premières étiquettes ou les deuxièmes. Les étiquettes sont évaluées en termes de confiance, c'est-à-dire la probabilité qu'elles correspondent à la sous-image d'intérêt principal pour l'utilisateur. Les premières et deuxièmes étiquettes sont sélectionnées en fonction de leur score de confiance respectif, et la requête de recherche est construite à partir des étiquettes sélectionnées.
Le processus utilise également des données de requêtes historiques pour générer des requêtes de recherche de candidats à partir de la transcription et des étiquettes. Les requêtes de candidats sont évaluées en termes de score de confiance, c'est-à-dire la probabilité qu'elles correspondent précisément à la transcription. Une requête de recherche est choisie parmi les candidats en comparant les données de requêtes historiques aux requêtes de recherche de candidats.
En outre, le processus permet de choisir les images incluses dans l'image, en évaluant leur score de confiance en fonction de leur probabilité d'être l'image d'intérêt principal pour l'utilisateur. Une sous-image est ensuite créée en fonction des scores de confiance des images.
Les données de réception incluent une sélection d'évènements de contrôle au niveau du dispositif informatique, qui identifie la sous-image. Cette sélection peut être déclenchée par la détection d'un mot clé prédéfini, ce qui amène le dispositif informatique à capturer l'image et les données audio correspondant à l'énoncé.
La désambiguïsation contextuelle des requêtes nécessite également
Le processus suivant consiste à :
- Recevoir une image supplémentaire provenant du dispositif informatique ainsi qu'une transcription supplémentaire d'un énoncé prononcé par un utilisateur du dispositif informatique.
- Identifier une sous-image supplémentaire incluse dans l'image supplémentaire en exécutant une reconnaissance d'image sur la sous-image supplémentaire.
- Déterminer des premières étiquettes supplémentaires qui indiquent le contexte de la sous-image supplémentaire, en exécutant une reconnaissance de texte sur une partie de l'image supplémentaire autre que la sous-image supplémentaire.
- Déterminer également des deuxièmes étiquettes supplémentaires qui indiquent le contexte de la sous-image supplémentaire, en se basant sur la transcription supplémentaire, les premières étiquettes supplémentaires et les deuxièmes étiquettes supplémentaires.
Générer une commande et exécuter la commande. L'exécution de la commande peut inclure :
- Stocker l'image supplémentaire en mémoire.
- Enregistrer la sous-image dans la mémoire.
- Télécharger l'image supplémentaire sur un serveur.
- Envoyer la sous-image au serveur.
- Intégrer l'image supplémentaire à une application du dispositif informatique.
- Récupérer la sous-image dans l'application du dispositif informatique.
- Créer des métadonnées associées à la sous-image, en utilisant également les premières étiquettes qui indiquent le contexte de la sous-image ainsi que les métadonnées associées à la sous-image.
Les bénéfices de suivre le processus de "requêtes d'images" peuvent englober :
- Faciliter le traitement des demandes en langage naturel en déterminant le contexte d'une image correspondant à une partie de l'affichage d'un dispositif informatique
- Sélectionner la reconnaissance d'image et/ou de texte
- Réécrire une transcription de l'énoncé d'un utilisateur
- Reconnaître que l'utilisateur fait référence à la photo affichée sur l'appareil informatique
- Extraire des informations sur la photo pour déterminer le contexte de la photo, ainsi que le contexte d'autres parties de l'image qui ne contiennent pas la photo, comme l'endroit où la photo a été prise.
Résumé sur le classement des images
Le classement d'images de Google est un processus complexe pour classer et afficher les résultats de recherche d'images aux utilisateurs. Il utilise des algorithmes sophistiqués pour comprendre le contenu des images et les associer à des requêtes de recherche en langage naturel. Les images sont classées en fonction de leur pertinence pour les requêtes de recherche, en utilisant des critères tels que le texte descriptif, les attributs visuels et le comportement de l'utilisateur. Le processus de "requêtes d'images" peut être utilisé pour faciliter le traitement des requêtes en langage naturel en déterminant le contexte d'une image sur l'affichage d'un dispositif informatique. Il peut également être utilisé pour extraire des informations sur la photo, telles que l'endroit où elle a été prise, afin de mieux comprendre le contexte de la photo et de fournir des résultats de recherche plus pertinents aux utilisateurs. Si vous êtes encore ici, peut être voudriez vous lire l'article sur l'optimisation des images avancées, reprenant une partie des concepts qui sont vue ici.
0 commentaires