FRFAM.COM >> Famille >> Technologie &Innovation >> Informatique

Comment fonctionnent les moteurs de recherche ?

Article mis à jour par Joel Lee le 10/10/2017

Pour beaucoup, Google est l'Internet. C'est le point de départ pour trouver de nouveaux sites, et c'est sans doute l'invention la plus importante depuis Internet lui-même. Sans les moteurs de recherche, le nouveau contenu Web serait inaccessible au grand public.

Mais savez-vous comment fonctionnent les moteurs de recherche ? Chaque moteur de recherche a trois fonctions principales :l'exploration (pour découvrir le contenu), l'indexation (pour suivre et stocker le contenu) et la récupération (pour récupérer le contenu pertinent lorsque les utilisateurs interrogent le moteur de recherche).

Exploration

L'exploration est là où tout commence :l'acquisition de données sur un site Web.

Cela implique d'analyser les sites et de collecter des détails sur chaque page :titres, images, mots-clés, autres pages liées, etc. Différents robots d'exploration peuvent également rechercher des détails différents, comme la mise en page, l'endroit où les publicités sont placées, si les liens sont entassés, etc.

Mais comment un site Web est-il exploré ? Un bot automatisé (appelé "araignée") visite page après page aussi rapidement que possible, en utilisant des liens de page pour trouver où aller ensuite. Même au début, les araignées de Google pouvaient lire plusieurs centaines de pages par seconde. De nos jours, c'est par milliers.

Comment fonctionnent les moteurs de recherche ?

Lorsqu'un robot d'exploration Web visite une page, il collecte tous les liens de la page et les ajoute à sa liste des prochaines pages à visiter. Il va à la page suivante dans sa liste, collecte les liens sur celui page, et répète. Les robots d'exploration Web revisitent également les pages précédentes de temps en temps pour voir si des changements se sont produits.

Cela signifie que tout site lié à un site indexé sera éventuellement exploré. Certains sites sont explorés plus fréquemment, et certains sont explorés plus en profondeur, mais parfois un robot peut abandonner si la hiérarchie des pages d'un site est trop complexe.

Une façon de comprendre le fonctionnement d'un robot d'exploration Web consiste à en créer un vous-même. Nous avons écrit un didacticiel sur la création d'un robot d'exploration Web de base en PHP, alors vérifiez-le si vous avez de l'expérience en programmation.

Comment fonctionnent les moteurs de recherche ?

Notez que les pages peuvent être marquées comme "noindex", ce qui revient à demander aux moteurs de recherche d'ignorer son indexation. Les parties non indexées d'Internet sont connues sous le nom de "web profond", et certains sites, comme ceux hébergés sur le réseau TOR, ne peuvent pas être indexés par les moteurs de recherche. (Qu'est-ce que le routage TOR et oignon ?)

Indexation

L'indexation est le moment où les données d'un crawl sont traitées et placées dans une base de données.

Imaginez que vous fassiez une liste de tous les livres que vous possédez, leurs éditeurs, leurs auteurs, leurs genres, leur nombre de pages, etc. L'exploration consiste à parcourir chaque livre tandis que l'indexation consiste à les enregistrer dans votre liste.

Imaginez maintenant qu'il ne s'agit pas seulement d'une pièce remplie de livres, mais de toutes les bibliothèques du monde. C'est une version à petite échelle de ce que fait Google, qui stocke toutes ces données dans de vastes centres de données avec des milliers de pétaoctets de disques.

Voici un aperçu de l'un des centres de données de recherche de Google :

Comment fonctionnent les moteurs de recherche ?

Récupération et classement

La récupération se produit lorsque le moteur de recherche traite votre requête de recherche et renvoie les pages les plus pertinentes qui correspondent à votre requête.

La plupart des moteurs de recherche se différencient par leurs méthodes de récupération :ils utilisent différents critères pour sélectionner et choisir les pages qui correspondent le mieux à ce que vous voulez trouver. C'est pourquoi les résultats de recherche varient entre Google et Bing, et pourquoi Wolfram Alpha est si utile.

Les algorithmes de classement comparent votre requête de recherche à des milliards de pages pour déterminer la pertinence de chacune. Les entreprises gardent leurs algorithmes de classement comme des secrets industriels brevetés en raison de leur complexité. Un meilleur algorithme se traduit par une meilleure expérience de recherche.

Ils ne veulent pas non plus que les créateurs Web jouent avec le système et grimpent injustement au sommet des résultats de recherche. Si jamais la méthodologie interne d'un moteur de recherche sortait, toutes sortes de personnes exploiteraient sûrement ces connaissances au détriment des chercheurs comme vous et moi.

Comment fonctionnent les moteurs de recherche ?

L'exploitation des moteurs de recherche est possible, bien sûr, mais ce n'est plus si facile.

À l'origine, les moteurs de recherche classaient les sites en fonction de la fréquence d'apparition des mots clés sur une page, ce qui entraînait un "bourrage de mots clés", c'est-à-dire remplissant les pages d'absurdités comportant de nombreux mots clés.

Puis vint le concept d'importance des liens :les moteurs de recherche appréciaient les sites avec beaucoup de liens entrants parce qu'ils interprétaient la popularité du site comme une pertinence. Mais cela a conduit à des spams de liens sur tout le Web. De nos jours, les moteurs de recherche pondèrent les liens en fonction de "l'autorité" du site de liaison. Les moteurs de recherche accordent plus de valeur aux liens d'une agence gouvernementale qu'aux liens d'un répertoire de liens.

Aujourd'hui, les algorithmes de classement sont entourés de plus de mystère que jamais, et "l'optimisation des moteurs de recherche" n'est pas si importante. Un bon classement dans les moteurs de recherche provient désormais d'un contenu de haute qualité et d'expériences utilisateur exceptionnelles.

Quelle est la prochaine étape pour les moteurs de recherche ?

Ah, maintenant il y a une question intéressante. La réponse est "sémantique":le sens du contenu de la page. Vous pouvez en savoir plus dans notre aperçu du balisage sémantique et de son impact futur.

Mais voici l'essentiel.

À l'heure actuelle, vous pouvez rechercher des "biscuits sans gluten", mais les résultats peuvent renvoyer des recettes de biscuits sans gluten. Au lieu de cela, vous pourriez trouver des recettes de biscuits régulières qui disent "Cette recette n'est pas sans gluten". Il a les bons mots-clés, mais le mauvais sens.

Grâce à la sémantique, vous pouvez rechercher des recettes de cookies, puis supprimer certains ingrédients :farine, noix, etc. Vous pouvez également limiter les résultats aux seules recettes avec des temps de préparation inférieurs à 30 minutes et des notes d'examen de 4/5 ou plus. Ça serait cool, non? C'est là que nous nous dirigeons !

Vous ne savez toujours pas comment fonctionnent les moteurs de recherche ? Découvrez comment Google explique le processus :

Si vous avez trouvé cela intéressant, vous aimeriez peut-être aussi savoir comment image les moteurs de recherche fonctionnent.

Crédit image :prykhodov/Depositphotos


[]