Indexation du Web : où en est l’indépendance de Qwant ?

Lorsque l’on parle de moteurs de recherche, il y a encore beaucoup de confusion entre les méta-moteurs qui se contentent d’afficher des résultats fournis par d’autres dans une interface différente, et les moteurs de recherche indépendants qui indexent eux-mêmes le contenu du Web et disposent de leurs propres algorithmes de classement des résultats. Chez Qwant, nous avons pris le pari depuis le premier jour de créer un véritable moteur de recherche indépendant, en indexant nous-mêmes le Web et en mettant au point nos propres algorithmes, qui permettent de vous fournir l’information la plus pertinente sans avoir à collecter vos données personnelles.

C’est extrêmement important pour garantir une souveraineté technologique européenne. Il était en effet anormal que notre connaissance du Web dépende d’un ou deux acteurs américains, qui décident pour 95 % des Européens de ce qui est pertinent pour leurs recherches, en imposant leur vision et leurs intérêts.

Nous avons énormément investi dans la création de notre index et investissons de plus en plus. A l’heure où nous publions ces lignes, Qwant dispose dans ses serveurs de 20 milliards de pages Web indexées, et chaque jour nos crawlers passent sur plus d’un milliard de pages pour en ajouter, supprimer celles qui n’existent plus, ou mettre à jour toutes les informations qui les concernent. Qwant dispose à notre connaissance de la plus grande capacité d’indexation en Europe.

Pourtant, vous lisez encore trop souvent que Qwant utilise Bing, comme si Qwant n’était qu’un simple méta-moteur qui n’a pas ses propres technologies. Cette erreur a par exemple été relayée par le blog juridique Precisement.org, qui fait une comparaison en apparence simple entre les résultats de Bing et ceux de Qwant, sans savoir comment les choses fonctionnent réellement en arrière-plan. Il note que 51 % des résultats sont identiques, ce qui au passage montre que 49 % sont différents. « L’index de Qwant et de ses technologies de “search”, selon toute apparence (…) sont fournies par Bing de Microsoft », écrit-il.

Fort heureusement, ça n’est pas le cas ! Voici par exemple à quoi ressemble un petit bout (2000 liens) de ce que Qwant indexe sur Precisement.org. Il s’agit d’une représentation visuelle générée avec Graphee, un outil interne que l’on a développé et distribué en open-source, qui permet de visualiser les liens entre les pages d’un site web ou entre différents sites internet :

Chaque point que vous voyez sur l’image correspond à une page du site, à laquelle est associée un poids calculé par nos algorithmes pour déterminer l’importance de la page.

Ces points sont générés depuis les données d’indexation. Par exemple voici un extrait CSV qui liste actuellement plus de 6100 pages référencées avec lesquelles existent des liens avec Precisement.org :

Et bien évidemment, nous stockons une copie du contenu du site pour l’indexer et en évaluer la pertinence par rapport aux mots clés recherchés par nos utilisateurs :

Des dizaines de millions de sites sont ainsi présents dans notre index et nous y revenons très souvent avec nos crawlers (plus souvent pour les gros sites très populaires, moins souvent pour les petits sites rarement mis à jour). En réalité, Qwant utilise Bing pour compléter les résultats de recherche sur lesquels nous n’avons pas une pertinence suffisante, et sur les images où les capacités de stockage sont très importantes. Sur le reste, les grandes logiques de référencement sont souvent les mêmes ce qui explique pourquoi vous trouvez souvent les mêmes résultats de recherches, classés légèrement différemment selon le poids donné aux uns ou aux autres. Mais nous faisons évoluer chaque jour nos algorithmes. La bascule vers l’indépendance totale se fait donc progressivement, et c’est bel et bien la direction prise par Qwant, difficile à voir d’un œil extérieur !