L’exploration et l’indexation des pages par les robots de Google sont une exploration au cœur de la recherche. Le principe de l’archivage est que le robot parcourt le site Web pour l’explorer à destination des moteurs de recherche. Ce système consiste à inscrire l’ensemble des pages d’un site dans Google.
Qu’est-ce que l’indexation Google ?
Le catalogage est un système désignant l’action du robot d’un moteur de recherche qui explore un site. Le programme parcourt les pages Web et indexe leur contenu. Le robot examine un site en visitant son contenu et le stocke dans les serveurs du moteur de recherche auquel il est rattaché. Qu’il s’agisse de l’archivage Google, Bing ou Yahoo, ces démarches sont similaires en terme de fonctionnement.
Pour effectuer l’indexation, le moteur de recherche commence par une phase d’exploration du Web. Le robot de Google baptisé Googlebot explore les pages, essuie les liens présents sur les sites Internet afin de découvrir de nouvelles pages et de nouveaux contenus. En effectuant cette action, il classe les pages dans sa base de données. Cette opération consiste à enregistrer le contenu des pages dans les serveurs situés dans la base de données de Google.
La taille de l’index contenu dans la base de Google en 2013 dépasse 30 milliards d’URL. Cela représente plus de 100 milliards de pages enregistrées. L’indexation de Google ne représente pas l’intégralité du Web puisque le moteur de recherche enregistre uniquement les pages indexables. Les pages qui ne peuvent être accessibles par Googlebot ne pourront pas être accessibles en effectuant une recherche traditionnelle. Il existe des méthodes capables de bloquer l’indexation des pages Web.
Différents types d’indexation Google
Le moteur de recherche le plus populaire au monde fonctionne avec 2 catégories d’index. L’index principal représente les pages désignées par Google comme étant celles qui sont les plus intéressantes en évaluant toutes celles qui ont été indexées. Quant à l’index secondaire, il s’agit des pages qui ont des qualités moins importantes. Le second choix peut être des pages dupliquées ou considérées comme de mauvaise qualité par le moteur de recherche.
Résumé du fonctionnement de la recherche Google
En effectuant une recherche sur Internet, on obtient rapidement une liste des résultats relatifs à ses mots-clés. Pour proposer des résultats toujours plus pertinents, le moteur de recherche fonctionne en plusieurs phases : exploration, indexation et diffusion des résultats. Afin de calculer la pertinence d’une page, Google prend en compte plus de 200 facteurs, dont le PageRank qui détermine l’importance d’une page à partir des liens provenant d’autres sites.