Petite astuce sur l’indexation Google
Tout le monde (ou presque) connaît la petite mention “il y a x heures” voire “il y a x minutes” lors de l’arrivée d’une nouvelle page dans les résultats de recherche de Google:

De l’avis général, cette mention spéciale dans les SERPs ne concernerait que les nouvelles pages, ou en tout cas les pages fraichement indexées par Google. La valeur ne semble jamais dépasser 24 heures: il s’agit donc, pour Google, de notifier à l’utilisateur que la page proposée est récente.
Là où cela devient intéressant, c’est d’arriver à afficher ceci, quand on sait que la home de Scoopeo est loin d’être une nouvelle page:

Il s’agit d’une astuce, peut-être (sûrement) pas inédite, mais peu connue, pour afficher cette mention pour n’importe quelle URL ayant été visitée (crawlée?) par un bot Google dans les dernières 24 heures (?).
Pour afficher cette mention, (ce bug?), il suffit de soumettre au champ de recherche l’url de la page, mais légèrement modifiée, le but étant d’essayer de faire afficher à Google une page d’erreur du genre “aucun résultat trouvé” ou “essayez avec cette orthographe“.
Par exemple, pour scoopeo.fr, on tape scoopoo.fr au lieu de scoopeo.fr:

Autre exemple pour zeblog.com, on tape zeblog.om au lieu de zeblog.com:

La question qui se pose, c’est à quoi correspond cette valeur “il y a x heures” ? Pas à la dernière mise en cache, puisqu’en consultant le cache, y compris sur plusieurs DC, le cache est bien plus ancien (plusieurs jours pour le dernier exemple). En consultant les différents DC avec la même requête (càd avec une faute dans le nom de domaine, une lettre en moins, ou une lettre en plus, selon les cas), on tombe sur trois types de résultats, selon le DC consulté:
- la même mention “il y a x heures”, évidemment
- la même mention, mais avec une autre date/heure (plus récent ou plus ancien)
- aucune mention spéciale
Alors, à quoi correspond cette mention? Peut-être à la date du prochain cache? Je vous laisse faire vos propres tests, bande de rapaces.
18 juin 2008 à 16:43
Et la réponse est…?
2 juillet 2008 à 13:35
Date de modification de la page?
16 juillet 2008 à 1:01
Il me semble que cela correspond à la date de la dernière visite de googlebot. Les serveurs de cache de google ne sont pas synchronisés tout de suite : pour preuve, un article tout fraichement indexé il y a X heures sur Google n’a jamais de page de cache associée.
16 octobre 2008 à 21:09
@ranks : “date de la dernière visite de googlebot”
J’en doute : j’imagine qu’un bot doit être constamment en train de crawler Scoopeo. 4h sans crawl me parait beaucoup pour un site de ce genre, avec ce poids et les nouveaux articles réguliers.
@trambz : “Date de modification de la page?”
Je pense pareil : date de dernière modification significative de la page.