Qu'est-ce qu'un moteur de recherche ?
Aujourd'hui, internet est omniprésent dans notre quotidien et beaucoup d'entre nous auraient du mal à s'en passer, en effet, sur internet on trouve de tout, on peut faire notre shopping, regarder nos séries préférées ou encore savoir les résultats des matchs de football en direct. Mais pour tout cela, nous faisons d'abord appel aux moteurs de recherche qui nous proposent très rapidement ce que nous cherchons, mais comment font-ils ?
On peut dire qu'un moteur de recherche est une plateforme ou bien une application qui se base sur un algorithme, son objectif est de trouver les résultats qui correspondent le mieux à ce que recherche l'internaute. Il existe différents moteurs de recherche certains proposent plus de résultats que d'autres en fonction du contenu de leur bibliothèque, de plus, les résultats proposés par le moteur de recherche peuvent être de types différents (vidéos, images, textes…).
Comment les moteurs de recherche trouvent-ils les pages web ?
Tout d'abord, il existe différents moteurs de recherche qui sont par exemple Google, Yahoo ou encore Bing. Ces différents moteurs de recherche se servent de robots qui peuvent être appelé des spiders ou bien des crawlers, leur rôle est de lire une page internet puis de consulter les liens trouvés sur cette page. C'est en suivant tous ces liens trouvés sur des pages web que les robots finissent par visiter la quasi-totalité du web. Cependant, les robots n'ont pas la possibilité de lire les pages orphelines c'est-à-dire celles qui ne reçoivent aucun lien. De plus, étant donné l'immensité d'internet, les robots ne sont pas toujours en capacité de tout indexer car une page web peut rapidement être modifiée. Les sites qui ne reçoivent aucun lien sont donc difficilement trouvables pour les moteurs de recherche et les moteurs de recherche ne répertorient pas immédiatement les mises à jour de chaque page web.
Les robots enregistrent de nombreuses pages web après qu'ils les aient visitées, ces pages sont enregistrées dans des centres de données (data center).
L'indexation
Un index répertorie les mots avec le numéro des pages où l'on retrouve le mot. Les index ne recensent pas tous les mots notamment les petits mots qui sont des articles ou bien des conjonctions de coordination ou de subordination. Certaines pages web ne sont néanmoins pas sauvegardées telles que les sites illégaux, on dit qu'ils sont blacklistés.