#9. Comment fonctionne SearchGPT ?
Décortiquer le nouveau moteur de recherche d'OpenAI et comprendre comment y être présent.
Salut, c’est Alexis 👋
Bienvenue à 18 nouveaux abonnés depuis la dernière édition ! Si vous n’êtes pas encore abonné, il n’y a rien de plus simple ⬇️
Et si le contenu vous plaît, n’hésitez pas à le partager à vos amis! 😉
Bienvenue sur SearchGPT!
Après une phase de tests depuis le mois de juillet, OpenAI a intégré le 31 octobre 2024 son nouveau moteur de recherche à ChatGPT pour les abonnés Plus et Teams, avec une disponibilité prévue pour les utilisateurs gratuits au début de 2025.
Des résultats de recherche intégrant de l’IA existent déjà (comme Perplexity.ai ou SGE dans Google), mais reconnaissons-le : c'est OpenAI qui depuis plusieurs années dynamise véritablement le marché de l’IA comme nul autre.
Si vous n’avez pas encore eu l’occasion de l’utiliser ou vous vous posez des questions sur son fonctionnement, je vous propose de s’y plonger ensemble dans cette édition de la newsletter!
L’article contient beaucoup de visuels, si vous avez des difficultés pour le visualiser correctement dans votre boîte e-mail, rendez-vous dans sa version web - https://newsletter.alekseo.com/p/comment-fonctionne-searchgpt.
Café, tisane et bonne lecture! ☕
Comment accéder à SearchGPT ?
Pour commencer à utiliser SearchGPT, il suffit :
d’avoir un abonnement à ChatGPT Plus et Team, ou faire parti des 10 000 utilisateurs inscrits comme testeurs de SearchGPT en juillet.
d’utiliser un des modèles suivants : GPT-4, ChatGPT-4o ou ChatGPT-4o mini.
de cliquer sur le bouton “Rechercher” sous le champ de recherche de ChatGPT.
Fonctionnement de SearchGPT
1. Suggestions :
L’interaction avec le moteur de recherche commence par les suggestions. Les suggestions de SearchGPT reprennent exactement les 4 premières suggestions de Bing.
2. RAG sous le capot
Qu’est-ce qui se passe après la saisie d’une requête ?
Pour faire tourner un moteur de recherche SearchGPT utilise une approche appelée "Retrieval Augmented Generation" (RAG) pour améliorer la pertinence et la précision de ses réponses.
Cette méthode combine les capacités de génération de texte des modèles de langage avec des informations récupérées en temps réel à partir de sources externes.
Le RAG dans SearchGPT s’appuie sur 3 piliers :
Récupération d'informations : Lorsqu'un utilisateur pose une question, SearchGPT effectue une recherche pour obtenir des informations pertinentes à partir de sources externes, notamment les résultats de Bing et des partenaires d’OpenAI.
Génération de réponse : Le modèle de langage utilise ces informations récupérées pour générer une réponse cohérente et contextuelle, en intégrant les données les plus récentes et pertinentes.
Sources & Citations : Et enfin (pour nous 🙂) les liens vers les sources originales permettant aux utilisateurs de vérifier et d'explorer davantage les informations présentées.
Tout cela visant à combler ses lacunes et défauts bien connus et omniprésents : l'obsolescence des réponses, l'absence de vérification des faits, une certaine déconnexion de la réalité, et bien sûr, les hallucinations de l'IA.
3. Sources données, partenaires et la monopolie de Le Monde :
Ainsi, le RAG de SearchGPT enrichit les modèles de langage en leur fournissant des informations contextuelles pertinentes issues de sources de données externes.
Pour comprendre comment sont produits les réponses du nouveau moteur, intéressons-nous aux sources de données utilisées par SearchGPT, car contrairement à Google ou Bing, SearchGPT n’a pas d’index classique auquel on est habitué.
SearchGPT utilise différentes sources de données, dont :
APIs spécifiques de Google (favicons, directions dans les cartes)
Partenaires médias (fournisseurs de contenus de qualité)
Partenaires data (météo, bourse, cartes)
Sa propre exploration du web
Les partenaires fournisseurs de contenus occupent une place importante dans la génération des réponses de SearchGPT.
Ce sont des organisations ou des plateformes qui contribuent à enrichir les réponses et services proposés, en plus des résultats de recherche de Bing, en fournissant des informations spécialisées, vérifiées et actualisées.
Il paraît qu’on peut identifier les partenaires de OpenAI via le marquage &utm=chatgpt.com qui se fait ajouter à la fin des URL des liens.
Voici une liste (non-exhaustive) des partenaires officiels de SearchGPT que j’ai pu identifier :
Wikipedia, The Times, New York Post, AP News, Associated Press, People, The Wall Street Journal, Reuters, The Scottish Sun, The US Sun, The Irish Sun, Prisa (El País), Talksport, News.com.au, The Sun, Diario AS, Financial Times, Condé Nast, Dotdash Meredith, GEDI, Hearst, The Atlantic, Time, Vox Media, Axel Springer
Et en France ?
En France, OpenAI n’a à ce jour qu’un seul partenaire et fournisseur de contenu, c’est Le Monde. Le média en parle d’ailleurs dans cet article.
C’est évidemment une question de temps, mais Le Monde littéralement monopolise aujourd’hui l'ensemble de l’encart “Actualités récentes” (réservé aux partenaires) en France :
4. Sources & citations
Les réponses fournies par SearchGPT incluent les liens vers sources et sont présentées sous 2 formes :
“Résultats de recherche” : liens vers les sources originales reçues par le biais de de l’API de Bing Search. Ils sont exploités en arrière-plan pour alimenter les réponses générées, mais ne sont pas toujours mentionnés explicitement dans le texte.
“Citations” : SearchGPT sélectionne les sources à citer en s'appuyant sur les résultats de recherche de Bing et en intégrant les flux de données de ses partenaires agréés. Ainsi, le bloc "Citations" apparaît. Ce sont ces citations qui vont finalement créer la réponse du moteur de recherche.
Observations :
Pour chaque requête, SearchGPT utilise le plus souvent 12 sources (pages web).
Plusieurs pages du même site peuvent faire partie des citations.
Le nombre de citations dépend de la nature de la requête et des gains d’informations apportées par les sources, le maximum que j’ai réussi à avoir est 5 :
5 sources citées :
“simulateur prêt immobilier”
“acheter une robe de cocktail”
“20 raisons pourquoi je me sens fatigué”
4 sources citées :
“comment choisir un blazer parfait”
“que faire dans le Finistère”
“comment choisir un blazer parfait”
“mal à la tête”
3 sources citées :
“meilleur outil de gestion de paie”
“les plus beaux marathons de France”
2 sources citées :
“comment choisir une robe de cocktail”
1 source citée :
“idées de robes de cocktail”
“comment courir un marathon”
“idées de robes de cocktail”
Les sources ne sont pas classées par pertinence, comme dans Google ou Bing et ne servent qu’à donner un aperçu des sources considérées par SearchGPT.
Les pages sources du même site sont regroupées et vont ensemble :
Aux sources sélectionnées depuis les résultats de recherche de Bing s’ajoutent les contenus des partenaires pour former une short-liste - les citations.
Ces citations participent à la création d’une réponse, offrant également des liens supplémentaires aux éditeurs :
5. Nouveau robot d’exploration de SearchGPT
En plus des résultats de recherche de Bing et des partenariats, SearchGPT explore le web lui-même.
Pour cela, OpenAI a conçu un robot d’exploration surnommé "OAI-SearchBot" pour parcourir les pages web et récupérer des données pertinentes.
C’est ce bot-là qui va venir étudier notre contenu à chaque fois qu’on apparaît dans les sources de SearchGPT.
Ce fonctionnement du bot se confirme bien dans les logs serveur :
Si vous souhaitez être cité par SearchGPT (et c’est l’objectif), il faut que vous autorisiez l’accès à ce bot dans votre fichier robots.txt et vos pare-feu.
Et là, quant au robots.txt, il est important d’éviter un piège possible.
Comme on le sait, il existe 2 stratégies pour construire son fichier robots.txt :
Autoriser tout , sauf …
Interdire tout, sauf …
Le plus souvent on utilise la 1ère méthode et on fait des robots.txt de type suivant :
User-agent: *
Disallow: /admin/
Disallow: /panier/
Dans ce cas-là, il n’y a aucun problème et OAI-SearchBot suit les règles communes à tous les autres robots.
Le second cas est plus subtil et se retrouve souvent sur les sites médias. Pour gérer l’afflux des robots indésirables, il est plus simple de les bloquer tous d’un coup par une seule règle. Et énumérer les bons avec des règles spécifiques.
Le robots.txt de ce type va ressembler à ça:
User-agent: Googlebot
User-agent: Bingbot
Disallow: /admin/
Disallow: /panier/
User-agent: *
Disallow: /
Sans se retrouver dans les user-agents spécifiques, notre OAI-SearchBot est obligé d’obéir à la dernière règle globale qui lui interdit d’accéder à l’ensemble du site.
Concrètement qu’est-ce qui se passe si vous bloquez (volontairement ou par hasard) le bot de SearchGPT ?
Voici 2 sites bien connus : Ouest-France.fr et 20minutes.fr
Au moment où je rédige ces lignes Ouest-France n’autorise l’accès à son site qu’à certains robots spécifiques (robots.txt du 2nd type), et OAI-SearchBot n’en faisant pas partie, se retrouve finalement bloqué.
En conséquence, Ouest-France apparait dans les sources (résultats de recherche de Bing), mais ne passe jamais en “Citations”.
Voire, quand je demande à maintes reprises de faire une synthèse de tel ou tel article de Ouest-France (en indiquant explicitement l’URL), SearchGPT arrive à reconnaître le sujet depuis l’URL, mais cite toujours un autre média (en l’occurrence Reuters).
L’autre exemple, 20minutes.fr utilise le schéma de robots.txt du 1er type (autoriser l’accès à tous les robots, juste pas pour certaines pages).
Pas de restrictions pour OAI-SearchBot.
20minutes passe bien en citations et apparaît dans les réponses de SearchGPT avec un lien vers 20minutes.fr.
💡 Si vous utilisez un mode de gestion de votre robots.txt avec l’approche “interdire tout sauf …”, vous pouvez avoir des difficultés pour être cité par SearchGPT. Pensez à autoriser l’accès de OAI-SearchBot à vos contenus.
6. Images :
Les réponses de SearchGPT sont souvent accompagnées de 4 images.
Les images proviennent de Bing :
Le favicons pour les sources proviennent d’une API peu connue de Google. Par exemple, pour avoir le favicon de TF1.fr SearchGPT requête cette url : https://www.google.com/s2/favicons?domain=tf1.fr&sz=16.
Un clic sur une image fonctionne exactement comme sur Google : l’image s’ouvre en plein écran avec un lien vers la page l’hébergeant.
💡 Pour apparaître dans les images de SearchGPT, assurez-vous qu’elles soient bien référencées dans Bing.
7. Géolocalisation
A présent OpenAI ne demande accès à notre géolocalisation précise (comme le fait Google, Bing, Facebook etc).
Pour déterminer la géolocalisation SearchGPT peut utiliser:
Adresse IP de l’utilisateur :
en changeant ma géolocalisation via un VPN, les résultats de SearchGPT s’adaptent en conséquence.
demandez à SearchGPT votre adresse IP et il va vous le dire.
Indication d’un toponyme dans la requête (“meilleurs restaurants à Nantes”)
Contexte de la conversation :
8. Recherche locale
Pour les requêtes ayant une intention de recherche orientée vers des résultats locaux (appelées dans la terminologie de Google "Visit in-person Queries"), un bloc de résultats de proximité est déclenché.
La carte affichée a sous le capot l’API de OpenStreetMap fourni par Mapbox.
Le bouton “Directions” utilise l’API de Google Maps et renvoie vers le service cartographique de Google.
La sélection d’établissements à proximité, provient des sources citées. Sur l’exemple ci-dessous, les 4 restaurants proposés sont récupérées depuis Restaurant Guru et Tripadvisor.
Les notes, avis, coût semblent ne pas provenir d’API spécifiques, mais c’est le résultat d’extraction depuis les contenus web et ça part dans tous les sens 🤪.
💡 Pour apparaître dans les recommandations de la recherche locale de SearchGPT, identifiez les plates-formes considérées comme reconnues et citées et assurez-vous d’être référencés dessus.
9. SearchGPT & E-commerce
Evidemment le nerf de guerre de tout moteur de recherche est le traitement des requêtes transactionnelles.
Et pour l’instant, en ce qui concerne les résultats e-commerce, SearchGPT est au niveau rudimentaire.
En reprenant pour base les résultats de recherche de Bing, SearchGPT cite les sites e-commerce sur les requêtes transactionnelles (“acheter une parka”) et les comparateurs sur les requêtes commerciales (“les meilleurs parkas“). Rien de nouveau ici.
La recherche orientée produits, les vrais listings e-commerce exploitables, les informations sur les prix, modes de paiement, de livraison, retours n’existent pas.
Sur ce point-là, SearchGPT pourra se battre à armes égales avec Google Shopping uniquement quand il commencera à traiter les flux de produits et ouvrira un équivalent de Merchant Center.
On le voit de l’autre côté, dans Google SGE, le cœur du e-commerce même dans le monde de l’IA c’est le flux.
10. Tracking
Si on n’est pas partenaire de OpenAI (tracké avec &utm=chatgpt.com), le trafic provenant des clics sur les sources de SearchGPT semble aller par défaut dans direct/(none) dans GA4.
C’est ce que je vois sur mes tests en cliquant sur les liens dans SearchGPT :
Cela rend la mesure des performances compliquée, car direct/none, comme on le sait, est un grand entrepôt de tout ce qui n’est pas identifiable.
Résumons :
Qu’est-ce qu’on retient de ces premières observations:
Il faut être bien référencé sur Bing pour apparaître dans SearchGPT.
Il faut être bien référencé dans Bing Images.
Soumettez vos sites dans Bing Webmaster Tools, ce moment est venu 🙂
Assurez-vous de ne pas bloquer le robot d’exploration de SearchGPT.
Il faut déployer les données structurées partout, SearchGPT les analyse.
Pour le local, étudiez les sources citées, car si vous voulez faire partie de la réponse de SearchGPT, il faut y être cité.
J’espère que cette édition vous a été utile, moi, personnellement, j’ai pris beaucoup de plaisir à étudier SearchGPT!
L'une des choses les plus incroyables est que l'on peut demander directement à SearchGPT comment il fonctionne, comment il traite les requêtes, et pourquoi il a sélectionné tel ou tel résultat. Les échanges sont parfois longs, mais instructifs et passionnants ! 🔥
A très bientôt!
Alexis.
Excellent résumé du fonctionnement de SearchGPT. Merci ! 👌
L'avenir du référencement est en marche.