Astuce SEO #9 : Quelles pages de votre site ne sont pas indexées par Google ?

La série Astuce SEO vise à partager des conseils simples à appliquer et pouvant contribuer immédiatement à vos stratégies SEO. Ces billets sont donc délibérément concis et visent à stimuler votre créativité. 

Nous avons souvent tendance à l’oublier, mais avant même de penser aux stratégies de trafic et de liens entrants, notre priorité à titre de stratège SEO est d’assurer que les pages de notre site soient indexées par Google. En effet, nous avons souvent le réflexe de concentrer notre attention sur les stratégies de contenus et de liens entrants, et cela dans l’optique de générer du trafic le plus rapidement possible. Pourtant, nos efforts resteront vains si, fautes d’êtres indexées, nos pages demeurent introuvables pour les requêtes les concernant.

Tout spécialiste SEO possède sa propre technique de vérifier l’état de l’indexation d’un site. La plus populaire présentement est probablement à travers la plateforme Google Webmaster Tools, où l’on peut soumettre un fichier sitemap et constater par la suite si des erreurs d’indexation sont survenues. Cependant, cette méthode n’est pas entièrement fiable, car l’absence de toutes erreurs ne vient pas automatiquement signifier que les URL sont belles et bien indexées.

Aujourd’hui dans ce nouvel article un peu “old school” et portant sur la série des astuces SEO, nous analyserons ensemble comment vérifier si les pages de notre site sont indexées, et sinon, lesquelles sont manquantes.

Étape 1 : Préparer une liste de vos URL et les importer dans un fichier Excel

Afin de mener à bien cette stratégie, nous devons passer à travers trois étapes :

La première étape est de compiler une liste à jour des URL de votre site, dans un format qui vous permettra de les exporter dans une colonne d’un fichier Excel.  Vous pouvez employer la méthode que vous désirez, exemple en utilisant votre sitemap, outil de votre choix tel que Screaming Frog, ou même, si le coeur vous en dit, de taper les URL à la main :-)

Pour ma part, j’adore le générateur d’URL d’AuditMyPc.com (gratuit), qui permet de me faire une liste .txt très propre des URL de mon site :

auditmypc

Ensuite, on exporte les URL en format .txt auditmy pc - in text Ensuite, on exporte la liste des URL dans un fichier Excel, soit la colonne A, pour être exact. liste des url - 1 Liste d’URL en main, ou du moins sous la souris, on est maintenant prêt à passer à la deuxième étape de notre opération.

Étape 2 : Interroger Google sur les URL indexées de votre site

Dans un monde idéal, chacune des URL que nous avons exportées en phase 1 seraient indexées par Google. Maintenant nous savons que c’est rarement le cas, et curieux comme nous le sommes, désirons vérifier si Google indexe la plupart de nos URL.

En premier lieu, nous devons télécharger un rapide bookmarklet  (un programme JavaScript exécutable d’un seul clic), nommé Google Serp Scrapper et développé par Cognitive SEO, qui nous permettra de “scrapper” les résultats de Google.

Donc, simplement prendre le fichier ici-bas et le glisser tout jusqu’à votre barre d’outils :

Google SERP Scraper – Déplacer le lien dans votre barre d’outils. 

Le fichier sera donc accessible directement depuis votre barre d’outils.

Cela fait, on accède à Google.com, sous lequel nous allons maintenant changer les préférences de recherche.

paramètres google Ce que nous désirons faire est de changer le nombre de résultats par page, de 10 résultats à 100 : paramètres google - 2

Une fois le changement complété, on retourne sur Google, et on lance une recherche avec la syntaxe suivante :   site:www.monsite.com , où vous remplacer monsite.com par votre domaine. Pour ceux qui sont moins familiers avec les commandes Google, la syntaxe site: vous sortira tout les URL que Google possède dans son index à propos du site accompagnant la syntaxe.

Si vous avez bien suivi les opérations, vous avez devant vous une liste de maximum 100 résultats, soient 100 pages différentes indexées par Google. Bien sûr, si votre site compte moins de 100 pages, vous aurez un résultat inférieur en nombre de pages ;-)

Votre recherche effectuée, on clique sur le bookmarklet Google Serp Scrapper, et boom! On obtient une liste des résultats de Google dans une jolie fenêtre visant à favoriser l’exportation. On copie les URL, et on vient copier cette nouvelle liste dans la colonne B de notre document Excel créé en première étape.

Première note: Il n’est pas toujours simple de copier directement du fichier Google Serp Scrapper; vous aurez peut-être à supprimer manuellement la colonne des titres de pages.

Deuxième note : On répète l’expérience pour le nombre de pages de Google contenant 100 résultats. Exemple si Google détient 400 URL indexées de votre site, on exporte l’une après l’autre les 4 pages contenant les 400 URL différentes.

Au final, vous avez le résultat suivant : un fichier Excel avec deux colonnes, soient :

A) La colonne de la liste complète des URL de votre site, générée avec l’outil de votre choix.

B) La colonne des URL de votre site indexées par Google, importées avec notre bookmarklet “Google Serp Scrapper”.

Êtes-vous toujours là ? :-)  La partie plus technique est maintenant chose du passé. Nous arrivons maintenant à l’objectif même de notre démarche, soit identifié les pages qui ne sont pas indexées par Google.

Étape 3 : Comparer les deux colonnes pour repérer les URL manquantes

Finalement, nous sommes à la dernière étape, qui rassurez-vous, sera moins compliqué que les deux précédentes.

Si vous avez bien suivi jusqu’à maintenant, vous devriez avoir un fichier Excel désordonné ressemblant à ceci :

liste des url dans excel

En effet, tout ce que nous avons à faire maintenant est de mettre en ordre alphabétique les colonnes A et B de nos documents. Vous aurez compris que notre objectif est simplement d’aligner les deux séries d’URL sous les mêmes paramètres, par exemple en ordre alphabétique.

Donc, on compare les URL, et on remarque très facilement si des URL sont manquantes, lorsqu’elles apparaissent uniquement dans la colonne A, et non dans la colonne B.

Lorsque l’on déniche des URL manquantes, on peut maintenant passer à une analyse plus poussée, en étudiant la page à un niveau individuel. Est-ce que la page comporte du contenu unique ? Est-ce que les balises sont en faute ? Puis-je améliorer le placement de cette page dans la navigation de mon site ?

En espérant que cette astuce vous aidera à repérer tout problème d’indexation avec les URL de votre site :-)

P.S. : Je reconnais que cette astuce sera plus complexe pour certains d’entre vous, donc je porterai une attention très particulière aux questions qui seront soumises à travers les commentaires ici-bas.

Vous avez apprécié cet article ?

Inscrivez­-vous à l’infolettre DCHQ afin de recevoir en primeur les derniers articles de ce blogue.

18 Comments

  1. Bonjour David,

    effectivement, cette une étape bien souvent oubliée dans l’analyse d’un site. J’avoue moi-même ne l’avoir fait que de très rares fois.

    Pour simplifier encore les choses, je te propose d’inclure au document une colonne C dans laquelle tu peux noter cette formule (en C2) : =SI(A2= » »; » »;SI(ESTNA(RECHERCHEV(A2;B:B;1;FAUX)); »NON »; »OUI »))

    Tu auras alors un OUI si l’URL est bien présente dans le sitemap et dans l’index, et un NON si l’URL n’est pas indexée.

    On pourrait même aller encore plus loin en ajoutant une 4e colonne qui ferait l’inverse. Autrement dit qui mettrait en avant les URLs indexées « par erreur » par le moteur.

    En tout cas merci pour l’astuce concernant le scrap. Je ne connaissais pas, je viens de l’ajouter et c’est super pratique (d’ailleurs pour éviter d’aller modifier les paramètres de recherche, on peut ajouter &num=100 à la fin de l’URL).

    Dernière petite chose, ton lien vers auditmypc.com renvoie vers une 404 ;)

    Répondre
    • Merci pour le commentaire de qualité, j’adore quand les lecteurs partagent leurs propres astuces. Je retiens tes idées, c’est définitivement à tester.

      PS : Merci pour la mention du lien brisé :-)

      Répondre
  2. Bonjour,

    le tuto est intéressant effectivement pour matcher des URLs. En revanche j’ai un sérieux doute sur la précision de la commande site: dans Google Search.

    Répondre
  3. Merci pour cette astuce, je ne connaissais pas Google Serp Scrapper.
    Pour la troisième étape, on peut aussi utiliser une fonction recherche V sur excel pour gagner du temps et avoir directement une liste des urls non indexées.

    Répondre
  4. Hello David allez je vais être sympa, voici un truc que j’utilise et qui facilitera encore plus le taf.
    En colonne A tu mets toutes les urls de ton site, en B tu mets celles que google a indexé. et en C tu mets cette formule
    =SI(NB.SI(B:B;A1)>0; « vrai »; »faux ») et tu étires vers le bas. Si une url n’est pas indexée il sera renvoyé la valeur faux dans la colonne C. Ensuite tu vas dans Accueil->mise en forme conditionnelle->règles de mise en surbrillance des cellules->texte qui contient tu rentres la valeur faux et tu choisis la couleur rouge. ainsi toute les cellules contenant Faux seront colorées en rouge et donc il te suffit de regarder en A quelle url n’est pas indexée
    En espérant que ça te soit utile ainsi qu’aux lecteurs

    Répondre
  5. Et sinon, l’export CSV avec Seo Quake marche aussi pour ceux qui n’ont pas le Google Scrapper, mais dans l’ensemble oui, c’est une étape commune à faire au lancement d’un site oui :-)

    Répondre
  6. Une bonne astuce gratuite qui conviendra à de petits sites.
    Seulement pour des gros sites il y a plusieurs solutions plus performantes et simple à mettre en œuvre :

    – Méthode payante : Utiliser un outil de scrap payant type scrapebox ou rddzscraper pour scraper les résultat de recherche Google en un clic et avoir directement la liste des urls indexés sans avoir besoins de traitement.
    D’ailleurs scrapebox à une fonction qu permet à partir d’une liste d’url de savoir si elles sont indexées ou non.

    – Méthode gratuite : Utiliser l’excellente extension « seotool excel » qui à une fonction pour vérifier l’indexation d’une url dans Google et cela directement au sein d’excel. Pas de manipulations supplémentaires en dehors d’excel. Plus d’explication ici => https://www.distilled.net/blog/seo/awesome-examples-of-how-to-use-seotools-for-excel/

    Un autre point à savoir quand on vérifie l’indexation d’un site est la proportion d’url dans l’index primaire de Google c’est à dire les urls qui vont vraiment ressortir dans les résultats de recherche.

    Pour cela il suffit de rajouter /& à la fin de votre requête :
    site:monsite.fr/& => nombres d’url dans l’index primaire
    site:monsite.fr -site:vmonsite.fr/& => nombres d’url dans l’index secondaire

    Répondre
    • Salut Michael, très top ton commentaire. Je connais bien Scrapebox, mais je n’avais pas pensé à l’utiliser dans ce cas-ci. Bonne suggestion aussi pour « SEOtool Excel », c’est justement la raison d’être du mdodule.

      Je ne suis pas au courant du principe index primaire ou secondaire, tu as des recherches là-dessus ?

      Répondre
      • Google à 2 index primaire et secondaire.
        L’index primaire correspond à son index principal il contient les urls des sites qu’il considère de qualité, c’est à dire les urls qui ressortent lorsque l’internaute tape une requête.
        Donc ce sont des urls qui peuvent potentiellement être positionnées.

        L’index secondaire répertorie les urls qu’il considère de moins bonne qualité. Ce sont des pages ignorées par Google pour préserver la pertinence des résultats de recherche. On peut les retrouver en allant à la fin de la pagination Google sur une requête et en cliquant sur le lien dans la phrase « Afin d’afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux xxx entrées actuelles. Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis. »

        Donc le but est d’avoir le moins de page possible dans l’index secondaire signe d’un bon référencement.
        D’ailleurs petite astuce : j’utilise un module chrome « Rds bar » qui me permet de voir en un clic le pourcentage d’url dans l’index primaire de Google et bien d’autre chose aussi… c’est d’ailleurs devenu ma toolbar seo préférée.

        Répondre
  7. Perso j’utilise le GWT de google, dans la partie « Explorer comme google » tu fourni l’url de ton sitemap, puis tu demande le crawl, il ne te reste plus qu’a cliquer sur « indexer toutes les urls de la page » et voila …

    Répondre
  8. Merci David pour cet article. Cela confirme également mes travaux en cours sur l’intérêt d’optimiser les pages de l’index secondaire de Google, afin qu’il indexe toutes les pages dans son index principal ! Gros chantier SEO pour ma part !

    Répondre
  9. Sous libreOfice il y a une astuce pour trouver les doublons :

    1/ Sélectionnez “Données”, puis “Filter”, puis “Filtre standard”.
    2/ Dans “Nom du Champ”, sélectionnez “aucun”
    3/ Cliquez sur “plus d’options”
    4/ Décochez la case “La plage contient des étiquettes de colonne”
    5/ “Sans doublons”

    Répondre

Laissez un commentaire