Yahoo! permet à Bing de s’améliorer en doublant son trafic

[ 3 ] Commentaires
Share

J’ai eu la chance de pouvoir assister à une conférence de presse chez Yahoo! à Paris, en présence de Yoelle Maarek, qui n’est pas n’importe qui, comme une recherche sur Google peut facilement vous l’apprendre. J’ai pris un maximum de notes lors de cette conférence, mais je ne sais pas encore très bien comment les ordonner, donc je verrai dans des billets rédigés plus tard quels éléments je souhaite approfondir.

D’abord, Yoelle Maarek a expliqué que l’accord récent entre Microsoft et Yahoo! était un accord gagnant-gagnant, dans la mesure où il visait à laisser à Bing la charge du « moteur de recherche » que l’on voit sur la home de Yahoo! (mais pas sur search.yahoo.com), et donc dans un sens à externaliser cette infrastructure, pour réduire les coûts tout en profitant d’un meilleur moteur de recherche. Yahoo!, en contrepartie, prendrais en charge la régie publicitaire chez Bing et toujours chez Yahoo!, mais surtout apporterait à Bing quasiment la même quantité, en plus, de ce qu’il a actuellement, ce qui serait très utile pour l’amélioration de son algorithme de recherche.

En effet, comme l’a expliqué Yoelle Maarek, le secteur de la recherche sur internet a connu trois grande évolutions :

  1. La première elle celle du « scale » : l’ordre de grandeur de la base de pages référencé est passé de 1000 à 1000 000 000, donc il a fallu supporter cette montée en charge en terme de quantité de pages à référencer, mais également tout en assurant une qualité de service permettant d’afficher la page des résultats en moins d’une seconde. C’était l’époque des moteurs tels que l’annuaire Yahoo!, ou les autres tels que Voila, Lycos, et les autres.
  2. La seconde a été celle de l’analyse des liens. Deux écoles se sont battues pour proposer à peu près le même concept : celui de la théorie des graphes dans le web (j’expliquerai plus tard). Mais ce concept, baptisé Page Rank (lien Wikipédia) par Serguey Brin et Larry Page, et Hubs and Authorities (lien Wikipédia) par Prabhakar Raghavan de Yahoo!/IBM visait à donner de la valeurs à certaines pages par rapport à d’autres.
  3. La troisième révolution a lieu depuis peu de temps, et c’est celle des Query Logs ou du Click Through Rate (lien Wikipédia), qui sont en fait une évaluation en direct de la qualité des résultats retournés. En gros, quand Google affiche une page de 10 résultats, il s’attend à ce que la majorité des gens cliquent sur le premier lien (car c’est celui qui doit être le meilleur en regard de la requête), puis que les taux de clics soient décroissant mais proportionnels à la place dans la page. Or, si Google se rends compte que, pour une requête, cette règle n’est pas respectée, et que certains cliquent sur le 3ième lien plus que sur le 1er, c’est que le troisième est plus intéressant, et donc qu’il doit être « remonté » dans la liste des résultats.

Explication du Page Rank

Le page rank part du postulat que sur le web, il y a deux types de contenus : le lien (que l’on peut assimiler à une route) et la page web (assimilable à une ville). Après, il n’y a plus qu’à appliquer le principe du « Tous les chemins mènent à Rome », ou plus exactement : il y a plus de probabilités que vous souhaitiez aller à Rome si vous êtes sur la route, et donc on va vous y emmener plus rapidement.

Explication du Hubs & Authorities

Ce principe, lui aussi basé sur la théorie des graphes, considère qu’il y a deux sortes de noeuds : les pages qui pointes et les pages pointées. Les meilleures pages étant celles qui ont le plus de pages qui pointent reliées à elles.

Aujourd’hui, Google et Yahoo! utilisent chacun un peu de ces deux principes. En fait, toute la différence se fait sur le trafic.

Le CTR dont je parlais tout à l’heure représente un vote implicite des utilisateurs pour les résultats affichés sur la page de résultat. Or, là, l’importance devient le trafic de chaque moteur, qui, plus il a d’utilisateurs, plus il peut améliorer, peaufiner ses résultats grâce aux Query Logs et ainsi, faire un « contrôle qualité » sur ses résultats.

Donc, pour revenir à Yahoo!/Bing, Yahoo! apporte du trafic et des Query Logs à Bing, et Bing apporte l’infrastructure à Yahoo!.

Vous serez peut-être intéressé :

3 commentaires sur ce billet

  1. jojo dit :

    Le soucis avec les principes topologique de « hub » et « autorité », c’est que « la masse » n’a pas toujours raison! Énormément de sites sont des autorités sans avoir un contenu sémantiquement valable. Et quand je parle de sémantique, pas besoin d’aller taper dans l’utopie : un simple calcul d’occurrence de mots clés serait plus pertinents qu’un classement purement.

    D’ailleurs, faut que je vous la retrouve, mais une étude montre que la relation entre scores d’autorité / de hub et score sémantique est quasiment inexistante.

    Ce qui est vicieux, c’est que Google étant le principal pourvoyeur de traffic (je vous renvois aux courbes sorties pendant la panne google l’année passée), ses propres calculs sont biaisés par la façon dont il propose les résultats. Mettez artificiellement un site en première position, et son page rank va décupler, le maintenant indéfiniment en première position. C’est un cercle vicieux.

    RépondreRépondre
  2. Louis dit :

    @jojo: Oui, c’est vrai que c’est un des travers du système, mais bien évidemment, il est podérable. En effet, si on remarque que le 1er lien prend 90% des clics, le 2ème prend 90% des 10% restants, (et ainsi de suite), on voit vite si un lien ne correspond pas à cette règle.

    RépondreRépondre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *