Googlebot joue un rôle important dans le référencement naturel d’un site internet. C’est pourquoi il est important d’en connaître son fonctionnement.
Googlebot est ce que l’on appelle le crawler de Google. En effet, il s’agit d’un robot de téléchargement qui est capable d’aspirer une grande partie de votre site Web par le biais d’un point d’entrée tel que la page d’accueil de ce dernier.
Cette étape est une étape clé et indispensable au référencement de votre site sur le moteur de recherche. Pour simplifier, le robot fonctionne comme un navigateur Web cliquant sur tous les liens se trouvant sur votre site Web.
Beaucoup de sites Web disposent à ce jour d’outils d’analyses tel que Google Analytics. Ces outils permettent d’analyser le comportement des visiteurs afin d’optimiser au mieux leur site.
De même, il peut être fort intéressant de pouvoir analyser tous les passages de Googlebot sur votre site Web. En effet, les indications tels que la fréquence de passage, le nombre et les pages visitées vous permettront de mieux comprendre son fonctionnement mais aussi d’optimiser votre site afin d’avoir une meilleure communication avec le robot.
Lors de sa venue sur votre site Web, il est bon de savoir que Googlebot télécharge 4 fois les mêmes URLs en utilisant quatre User-Agent différents qui sont les suivants :
De ce fait, Google peut vérifier la compatibilité d’un site internet sur différents supports informatique (Ordinateur, Smartphone). De plus, il ne faut pas oublié que Google désire présenter le contenu le plus pertinent à ces internautes selon leurs demandes. C’est pour cette raison qu’il est impératif de prendre en compte l’accessibilité, la performance et la navigabilité sur votre site.
Comme cela a été indiqué à plusieurs reprises, la mission principale d’un moteur de recherche est d’extraire le contenu d’un site et d’indexer ce dernier dans sa base de données dans le but de pouvoir répondre aux internautes. En principe, Googlebot n’a guère besoin de télécharger les feuilles de styles qui ne servent pas pour l’indexation de votre site.
Cependant, Les fichiers sont bien téléchargés par Googlebot. Quelle en est la raison ?
Bien que Google n’est jamais donné de réponses à cette question, on peut tout de même imaginer plusieurs raisons pour lesquelles ces fichiers sont téléchargé :
Avant de pouvoir crawler votre site, Googlebot doit vérifier les règles transmises par le fichier robots.txt. Il est de ce fait tout à fait normal que ce fichier soit téléchargé.
Googlebot effectue un travail titanesque et doit être en mesure de télécharger des milliards de pages. De ce fait, certaines techniques sont utilisé par le robot afin d’optimiser le téléchargement tel que :
Afin de ne pas troubler le fonctionnement du serveur Web sur lequel le site est crawlé, Googlebot fait attention et charge les pages à un rythme plutôt lent.
Il peut être parfois surprenant de voir certains liens téléchargés par Googlebot et qui peuvent envoyer sur votre site internet. En effet, Googlebot peut crawler à partir d’autres sites internet un lien incorrect vers votre site Web.
Googlebot dispose du User-Agent « Googlebot-Image » pour télécharger les images de votre site internet. Ces images seront par la suite référencées sur Google Image.
Depuis quelques années, Google indexe plus rapidement vos pages Web. Cela est dû à l’arrivé de Twitter et d’autres réseaux sociaux considérés comme des champions du temps réels.
En effet, aujourd’hui, lorsque vous allez créer et mettre en ligne une nouvelle page Web, cette dernière sera téléchargée dans les heures qui suivent leur mise en ligne, même si ces dernières ne sont pas encore disponibles sur le fichier sitemap.xml de votre site. Pour cela, il suffit qu’un lien soit ajouté dans l’une des pages déjà existante de votre site Web, vers la nouvelle page.
Cependant, il est bon de savoir que le passage de Googlebot sur la nouvelle page ne correspond à la date à laquelle la page va être indexée dans le moteur de recherche. En effet, il est fort possible que la page visitée n’apparaisse dans les moteurs de recherche que 24 heures après, voire plus.
Comme tous visiteurs, Googlebot laisse des traces de son passage dans les logs de votre serveur Web. De ce fait, il peut être fort intéressant de s’adresser de temps en temps à vos logs. En effet, cela vous permettra de parfaire votre stratégie Seo.
La majorité des sites internet disposent aujourd’hui d’un outil permettant d’analyser le comportement de vos visiteurs. Parmi les plus utilisé, il existe par exemple Google Analytics.
En effet, ces outils permettent le placement d’un code Javascript sur le navigateur du visiteur. Ce code permet l’envoi de bons nombres d’informations à l’outil. Cependant les robots d’indexations n’étant pas des navigateurs, leurs comportements est différents. De ce fait, il en déclenche pas le code Javascript et reste de ce fait invisible sur les outils tels que Google Analytics.
Mais, il reste néanmoins les logs HTTP créés par le serveur Web. En effet, sur l’historique, vous serez en mesure de visualiser les interactions entre Googlebot et votre site internet. Ce log contient aussi une ligne par lien téléchargé par le robot, que cela soit une image, un fichier CSS ou une page HTML.
Dans un premier temps, on peut visualiser le User-Agent :
Mizilla/5.0 (compatible, Googlebot/2.1 ; +http://google.com/bot.html)
Certaines commandes telles que la commande « grep » vont vous permettre d’extraire toutes les lignes du fichier log contenant un mot-clé précis comme par exemple :
# grep http://www.google.com/bot.html www.default-access.log
66.249.75.104 - - [11/Nov/2015:10:15:23 +0100] “GET /balises-h1-h2 HTTP/1.1” 200 8848 0 “-“
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google;com/bot.html)”
Il est désormais nécessaire de vérifier que l’IP indiquée soit bien celui de Google.
#nslookup 66.249.75.104
Authoritative answers can be found from:
75.249.66.in-addr.arpa nameserver = ns1.google.com.
Afin de pouvoir programmer une requête permettant de détecter la présence de Googlebot, il est nécessaire d’avoir quelques connaissances en développement Web. Cependant cette méthode permet d’avoir quelques informations complémentaires.