Comment fonctionnent les moteurs de recherche : Exploration, indexation et classement

Les moteurs de recherche, comme nous l’avons mentionné dans cette article sur Qu’est-ce que le SEO ? , sont des machines à répondre. Ils existent pour découvrir, comprendre et organiser le contenu de internet afin de fournir les réponses les plus pertinentes aux questions des chercheurs.

Votre contenu doit d’abord être visible pour les moteurs de recherche afin d’apparaître dans les résultats de recherche. C’est sans doute l’aspect le plus important du référencement : si votre site ne peut pas être trouvé, vous n’apparaîtrez jamais dans les SERP (Search Engine Results Page).

Comment fonctionnent les moteurs de recherche ?


Les moteurs de recherche remplissent trois fonctions principales :

  • L’exploration : Recherche de contenu sur Internet en inspectant le code/contenu de chaque URL trouvée.
  • L’indexation est le processus de stockage et d’organisation du contenu découvert au cours du processus d’exploration. Lorsqu’une page est ajoutée à l’index, elle peut être affichée à la suite de requêtes pertinentes.
  • Classement : Fournir le contenu qui répond le mieux à la requête d’un chercheur, ce qui signifie que les résultats sont classés du plus pertinent au moins pertinent.
  • Qu’est-ce que le crawling des moteurs de recherche ?
  • Le crawling est le processus par lequel les moteurs de recherche envoient une équipe de robots (appelés crawlers ou spiders) pour trouver du contenu nouveau et mis à jour. Le contenu peut prendre de nombreuses formes – il peut s’agir d’une page web, d’une image, d’une vidéo, d’un PDF ou de n’importe quoi d’autre – mais le contenu est trouvé grâce aux liens.

Que signifie exactement ce mot ?


Les araignées, ou robots des moteurs de recherche, rampent de page en page à la recherche de contenu nouveau et mis à jour.
Googlebot commence par récupérer quelques pages Web, puis suit les liens de ces pages pour découvrir de nouvelles URL. En suivant ce chemin de liens, le robot peut découvrir du nouveau contenu et l’ajouter à son index Caffeine – une base de données massive d’URL découvertes – pour être récupéré plus tard lorsqu’un chercheur cherche une information à laquelle le contenu de cette URL correspond.

Qu’est-ce qu’un index de moteur de recherche ?


Les moteurs de recherche traitent et stockent les informations qu’ils découvrent dans un index, qui est une base de données massive de tous les contenus qu’ils ont découverts et jugés aptes à être proposés aux chercheurs.

Classement dans les moteurs de recherche


Lorsqu’une personne effectue une recherche, les moteurs de recherche parcourent leur index à la recherche de contenu hautement pertinent, qui est ensuite classé dans l’espoir de répondre à la requête de l’internaute. Le classement fait référence à l’ordre des résultats de recherche en fonction de leur pertinence. En général, plus un site Web est bien classé, plus le moteur de recherche estime que ce site est pertinent pour la requête.

Il est possible d’empêcher les robots d’exploration des moteurs de recherche d’accéder à tout ou partie de votre site Web, ou de demander aux moteurs de recherche d’éviter d’indexer certaines pages. Bien qu’il puisse y avoir des raisons valables de procéder ainsi, si vous voulez que votre contenu soit trouvé par les moteurs de recherche, vous devez d’abord vous assurer qu’il est explorable et indexable. Sinon, il est pratiquement invisible.

En matière de référencement, tous les moteurs de recherche ne sont pas égaux.
De nombreux nouveaux arrivants sont perplexes quant à l’importance relative des différents moteurs de recherche. La plupart des gens savent que Google détient la plus grande part de marché, mais dans quelle mesure est-il essentiel d’optimiser pour Bing, Yahoo et les autres moteurs de recherche ?

Malgré l’existence de plus de 30 moteurs de recherche majeurs sur le Web, la communauté des référenceurs se concentre principalement sur Google. Pourquoi ? La réponse la plus simple est que la grande majorité des internautes effectuent leurs recherches sur le Web via Google. Si l’on inclut Google Images, Google Maps et YouTube (une propriété de Google), Google représente plus de 90 % des recherches sur le Web, soit près de 20 fois plus que Bing et Yahoo réunis.


Les moteurs de recherche peuvent-ils trouver vos pages par le biais du crawling ?


Comme vous venez de l’apprendre, il est indispensable que votre site soit exploré et indexé pour apparaître dans les SERP. Si vous avez déjà un site Web, vous devriez vérifier combien de vos pages sont dans l’index. Cela vous permettra de savoir si Google explore et trouve toutes les pages que vous souhaitez et aucune de celles que vous ne souhaitez pas.

L’opérateur de recherche avancée « site:yourdomain.com » peut être utilisé pour vérifier vos pages indexées. Saisissez « site:votredomaine.com » dans la barre de recherche de Google. Vous obtiendrez les résultats de l’indexation de Google pour le site spécifié :

Recherchez moz.com dans Google, le nombre de résultats étant affiché sous le champ de recherche.
Le nombre de résultats affichés par Google (voir « À propos des résultats XX » ci-dessus) n’est pas exact, mais il vous donne une bonne idée des pages de votre site qui sont indexées et de la façon dont elles apparaissent actuellement dans les résultats de recherche.

Pour des résultats plus précis, surveillez et utilisez le rapport sur la couverture de l’index dans Google Search Console. Si vous n’avez pas encore de compte Google Search Console, vous pouvez en créer un gratuitement. Vous pouvez utiliser cet outil pour soumettre des sitemaps pour votre site Web et suivre le nombre de pages soumises qui ont été ajoutées à l’index de Google, entre autres choses.

Il y a plusieurs raisons pour lesquelles vous n’apparaissez pas dans les résultats de recherche :

  • Votre site est tout nouveau et n’a pas encore été exploré.
  • Il n’y a pas de liens vers votre site Web depuis d’autres sites.
  • La navigation sur votre site rend difficile l’exploration efficace par un robot.
  • Votre site Web contient un code de base, appelé « directives d’exploration », qui empêche les moteurs de recherche de l’indexer.
  • Google a pénalisé votre site pour des tactiques de spam.
  • Informez les moteurs de recherche sur la manière d’explorer votre site.
  • Si vous avez utilisé Google Search Console ou l’opérateur de recherche avancée « site:domain.com » et que vous avez découvert que certaines de vos pages importantes sont absentes de l’index et/ou que certaines de vos pages sans importance ont été indexées par erreur, il existe certaines optimisations que vous pouvez mettre en œuvre pour mieux indiquer à Googlebot comment vous souhaitez que votre contenu Web soit exploré. En indiquant aux moteurs de recherche comment explorer votre site, vous pouvez mieux contrôler ce qui est indexé.

La plupart des gens pensent à s’assurer que Googlebot peut trouver leurs pages importantes, mais il est facile de négliger le fait qu’il y a probablement des pages que vous ne voulez pas que Googlebot trouve. Il peut s’agir d’anciennes URL dont le contenu est peu étoffé, d’URL en double (comme les paramètres de tri et de filtrage du commerce électronique), de pages de codes promotionnels spéciaux, de pages de test, etc.

Utilisez le fichier robots.txt pour éloigner Googlebot de certaines pages et sections de votre site Web.

Les fichiers Robots.txt


Les fichiers robots.txt sont situés dans le répertoire racine des sites Web (par exemple, yourdomain.com/robots.txt) et utilisent des directives robots.txt spécifiques pour suggérer les parties de votre site que les moteurs de recherche doivent et ne doivent pas explorer, ainsi que la vitesse à laquelle ils explorent votre site.

Ce que fait Googlebot avec les fichiers robots.txt

  • Si Googlebot ne peut pas localiser un fichier robots.txt pour un site, il l’explorera.
  • Si Googlebot découvre un fichier robots.txt pour un site, il suivra généralement les suggestions et explorera le site.
  • Si Googlebot rencontre une erreur en tentant d’accéder au fichier robots.txt d’un site et qu’il n’est pas en mesure de déterminer s’il existe ou non, il n’explorera pas le site.

Optimisation du budget de crawl !


Le budget d’exploration est le nombre moyen d’URL que Googlebot explorera sur votre site avant de le quitter. L’optimisation du budget d’exploration permet de s’assurer que Googlebot ne perd pas de temps à explorer des pages sans importance et ne risque pas d’ignorer des pages importantes.

Le budget d’exploration est plus important sur les sites de grande taille comportant des dizaines de milliers d’URL, mais il est toujours bon d’empêcher les robots d’accéder au contenu dont vous ne vous souciez pas. Veillez simplement à ne pas empêcher les robots d’accéder aux pages auxquelles vous avez ajouté d’autres directives, telles que les balises canoniques ou noindex. Si Googlebot se voit refuser l’accès à une page, il ne sera pas en mesure de consulter les instructions de cette page.


Tous les robots Web n’adhèrent pas au fichier robots.txt. Les personnes ayant des intentions malveillantes (par exemple, les racleurs d’adresses électroniques) créent des robots qui n’adhèrent pas à ce protocole. En fait, certains acteurs malveillants utilisent les fichiers robots.txt pour déterminer où vous avez stocké vos informations privées.

Bien qu’il puisse sembler logique de bloquer les robots d’exploration des pages privées telles que les pages de connexion et d’administration afin qu’elles n’apparaissent pas dans l’index, le fait de placer l’emplacement de ces URL dans un fichier robots.txt accessible au public signifie également que les personnes mal intentionnées peuvent les trouver plus facilement. Plutôt que d’inclure ces pages dans votre fichier robots.txt, faites-les disparaître de l’index et verrouillez-les derrière un formulaire de connexion.

Comment Google sait-il quelle version de l’URL il doit proposer aux internautes ?

Google fait un bon travail en déterminant lui-même l’URL représentative, mais vous pouvez indiquer à Google exactement comment vous voulez qu’il traite vos pages en utilisant la fonctionnalité Paramètres d’URL dans Google Search Console. Si vous utilisez cette fonctionnalité pour demander à Googlebot de « ne pas explorer les URL contenant le paramètre _« , vous lui demandez essentiellement de masquer ce contenu, ce qui pourrait entraîner la suppression des pages des résultats de recherche. C’est très bien si ces paramètres entraînent la duplication des pages, mais ce n’est pas idéal si vous souhaitez que ces pages soient indexées.

Les robots d’exploration peuvent-ils trouver tout votre contenu essentiel ?


Maintenant que vous avez appris quelques stratégies pour éloigner les robots d’exploration des moteurs de recherche de votre contenu non pertinent, examinons certaines optimisations qui peuvent aider Googlebot à trouver vos pages importantes.

Un moteur de recherche peut être en mesure de trouver certaines parties de votre site en l’explorant, mais d’autres pages ou sections peuvent être masquées pour diverses raisons. Il est essentiel de veiller à ce que les moteurs de recherche puissent trouver tout le contenu que vous souhaitez indexer, et pas seulement votre page d’accueil.

Réfléchissez à ceci : Le robot peut-il ramper à travers votre site Web plutôt que d’y accéder uniquement ?

Une porte condamnée représente un site vers lequel on peut ramper mais pas à travers.
Votre contenu est-il caché derrière des formulaires de connexion ?
Si vous demandez aux utilisateurs de se connecter, de remplir des formulaires ou de répondre à des enquêtes avant d’accéder à certains contenus, les moteurs de recherche ne verront pas ces pages protégées. Un robot d’exploration ne va certainement pas se connecter.

L’utilisation des formulaires de recherche ?


Les robots ne peuvent pas utiliser les formulaires de recherche. Certaines personnes pensent que si elles placent un champ de recherche sur leur site, les moteurs de recherche seront en mesure de trouver tout ce que leurs visiteurs recherchent.

Le texte est-il caché dans du contenu non textuel ?


Les formes de médias non textuels (images, vidéos, GIF, etc.) ne doivent pas être utilisées pour afficher du texte que vous souhaitez voir indexé. Bien que les moteurs de recherche reconnaissent de mieux en mieux les images, rien ne garantit qu’ils seront en mesure de les lire et de les comprendre dans l’immédiat. Il est toujours préférable d’ajouter du texte dans le balisage de votre page Web.

Les moteurs de recherche peuvent-ils suivre la navigation de votre site ?


De même qu’un robot d’exploration doit découvrir votre site par le biais de liens provenant d’autres sites, il a besoin d’un chemin de liens sur votre propre site pour le guider de page en page. Si vous avez une page que vous souhaitez faire découvrir aux moteurs de recherche mais qu’elle n’est liée à aucune autre page, elle est pour ainsi dire invisible. De nombreux sites commettent l’erreur critique de structurer leur navigation de manière à ce qu’elle soit inaccessible aux moteurs de recherche, ce qui les empêche d’apparaître dans les résultats de recherche.

Une représentation de la façon dont les pages qui sont liées peuvent être trouvées par les robots d’exploration, alors qu’une page qui n’est pas liée à la navigation de votre site existe comme une île, indécouvrable.


Erreurs de navigation courantes qui peuvent empêcher les robots d’indexation de voir l’ensemble de votre site :

  1. Avoir une navigation mobile qui affiche des résultats différents de ceux de votre navigation de bureau.
    Tout type de navigation dont les éléments de menu ne figurent pas dans le code HTML, comme les navigations en JavaScript. Google s’est beaucoup amélioré dans l’exploration et la compréhension de JavaScript, mais le processus n’est pas encore parfait. Le moyen le plus sûr de s’assurer qu’un élément sera trouvé, compris et indexé par Google est de le placer dans le code HTML.
  2. La personnalisation, ou l’affichage d’une navigation unique pour un type spécifique de visiteur par rapport aux autres, peut sembler être un camouflage pour un crawler de moteur de recherche.
  3. Oublier de créer un lien vers une page principale de votre site Web par le biais de votre navigation – n’oubliez pas que les liens sont les chemins que suivent les robots d’exploration pour accéder aux nouvelles pages !


C’est pourquoi il est essentiel que votre site Web présente une navigation claire et des structures de dossiers URL utiles.

Votre architecture de l’information est-elle claire ?


L’architecture de l’information est la pratique consistant à organiser et à étiqueter le contenu d’un site Web afin d’améliorer l’efficacité et la facilité de recherche pour les utilisateurs. La meilleure architecture de l’information est intuitive, ce qui signifie que les utilisateurs ne doivent pas avoir à se creuser la tête pour naviguer sur votre site Web ou pour trouver quelque chose.

Utilisez-vous des sitemaps ?


Un plan de site est exactement ce qu’il semble être : une liste d’URL sur votre site que les robots d’exploration peuvent utiliser pour découvrir et indexer votre contenu. L’un des moyens les plus simples de s’assurer que Google trouve vos pages les plus prioritaires consiste à créer un fichier conforme aux normes de Google et à le soumettre via Google Search Console. Bien que la soumission d’un sitemap ne remplace pas la nécessité d’une bonne navigation sur le site, elle peut certainement aider les robots d’exploration à suivre un chemin vers toutes vos pages importantes.

Assurez-vous que vous n’avez inclus que les URL que vous souhaitez voir indexées par les moteurs de recherche et veillez à donner aux robots d’exploration des indications cohérentes. Par exemple, n’incluez pas une URL dans votre sitemap si vous avez bloqué cette URL via robots.txt ou incluez des URL dans votre sitemap qui sont des doublons plutôt que la version canonique préférée (nous vous fournirons plus d’informations sur la canonisation au chapitre 5 !)


Si votre site n’a pas de liens vers d’autres sites, vous pouvez toujours l’indexer en soumettant votre sitemap XML dans la console de recherche Google. Il n’y a aucune garantie que l’URL soumise sera incluse dans l’index, mais cela vaut la peine d’essayer !

Les robots d’exploration obtiennent-ils des erreurs lorsqu’ils essaient d’accéder à vos URL ?


Au cours du processus d’exploration des URL de votre site, un robot d’exploration peut rencontrer des erreurs. Vous pouvez consulter le rapport « Crawl Errors » de Google Search Console pour détecter les URL sur lesquelles cela pourrait se produire. Ce rapport vous indiquera les erreurs de serveur et les erreurs non trouvées. Les fichiers journaux du serveur peuvent également vous montrer cela, ainsi qu’un trésor d’autres informations telles que la fréquence de crawl, mais comme l’accès et la dissection des fichiers journaux du serveur est une tactique plus avancée, nous n’en parlerons pas en détail dans le Guide du débutant, bien que vous puissiez en apprendre davantage à ce sujet ici.

Avant de pouvoir faire quoi que ce soit de significatif avec le rapport d’erreurs de crawl, il est important de comprendre les erreurs de serveur et les erreurs « not found ».

Codes 4xx : Lorsque les robots d’exploration des moteurs de recherche ne peuvent pas accéder à votre contenu en raison d’une erreur client Les erreurs 4xx sont des erreurs client, ce qui signifie que l’URL demandée contient une mauvaise syntaxe ou ne peut pas être satisfaite. L’une des erreurs 4xx les plus courantes est l’erreur « 404 – not found ». Cette erreur peut être due à une faute de frappe dans l’URL, à une page supprimée ou à une redirection non fonctionnelle, pour ne citer que quelques exemples. Lorsque les moteurs de recherche rencontrent une erreur 404, ils ne peuvent pas accéder à l’URL. Lorsque les utilisateurs rencontrent une erreur 404, ils peuvent être frustrés et quitter le site.

Codes 5xx : Lorsque les robots des moteurs de recherche ne peuvent pas accéder à votre contenu en raison d’une erreur de serveur.


Les erreurs 5xx sont des erreurs de serveur, ce qui signifie que le serveur sur lequel se trouve la page Web n’a pas pu répondre à la demande d’accès de l’internaute ou du moteur de recherche. Dans le rapport « Crawl Error » de Google Search Console, un onglet est consacré à ces erreurs. Ces erreurs surviennent généralement parce que la demande d’accès à l’URL a été interrompue et que Googlebot a abandonné la requête. Consultez la documentation de Google pour en savoir plus sur la résolution des problèmes de connectivité des serveurs.

Heureusement, il existe un moyen d’indiquer aux chercheurs et aux moteurs de recherche que votre page a été déplacée : la redirection 301 (permanente).

Créez des pages 404 personnalisées !


Personnalisez votre page 404 en y ajoutant des liens vers des pages importantes de votre site, une fonction de recherche et même des informations de contact. Cela devrait réduire le risque que les visiteurs quittent votre site lorsqu’ils tombent sur une page 404.

Supposons que vous déplaciez une page de exemple.com/jeunes chiens/ vers exemple.com/chiot/. Les moteurs de recherche et les utilisateurs ont besoin d’un pont pour passer de l’ancienne URL à la nouvelle. Ce pont est une redirection 301.

Partager cet article

Explorer plus d'articles

Shopping Basket

Nous contacter 💌

Écrivez-nous votre demande / question, nous reviendrons vers vous sous 24h