Aller au contenu principal
Outils

Scouter : le crawler SEO open-source que j'utilise tous les jours

Marre de payer un abonnement à prix d'or pour crawler les sites de mes clients, j'ai trouvé Scouter. Open-source, gratuit, auto-hébergé, et même branchable à l'IA. Petit récit d'un coup de cœur d'outil.

David Patiashvili 7 min de lecture
Scouter analysant challengemyproject.bzh : vue d'ensemble du crawl (URLs crawlées, indexables, TTFB, profondeur, PageRank)
Scouter en action sur notre propre site — Lokoe
Sommaire

    Laissez-moi vous raconter une histoire que tout consultant SEO connaît par cœur.

    La galère du lundi matin

    Vous gérez le référencement de plusieurs sites clients. Chaque semaine, même rituel : il faut crawler, vérifier qu’aucune page importante n’est passée en noindex par accident, traquer les redirections cassées, repérer le contenu dupliqué, surveiller le maillage interne. Bref, mettre le nez dans la tuyauterie.

    Et pour ça, on a deux options. Soit le bon vieux logiciel à licence, qui plafonne à un certain nombre d’URLs avant de vous réclamer la carte bleue. Soit le SaaS d’audit à 100-200 € par mois, multiplié par le nombre de clients, qui finit par coûter le prix d’un petit salaire. À chaque fois, la même sensation désagréable : payer cher pour explorer… mes propres données.

    Et puis, il y a quelques semaines, ma routine a changé. Parmi la liste des outils open-source que j’utilise au quotidien, un nouveau venu a désormais toute sa place : Scouter. La première fois que je l’ai lancé, j’ai cru à un mirage.

    Un crawler pro, gratuit, et open-source ? Vraiment ?

    Scouter, c’est un crawler SEO français, développé par Lokoe — l’agence SEO de Mehdi Colin — et publié en open-source sous licence MIT. Un outil pro, conçu chez nous, qu’on peut auto-héberger : pour une équipe attachée au Made in France et à la souveraineté des données comme la nôtre, ça coche trois cases d’un coup. Traduction pour les non-juristes : c’est gratuit, le code est ouvert, vous pouvez le modifier, et il n’y a aucune limite artificielle. Aucune. Vous crawlez 200 URLs ou 200 000, c’est pareil.

    L’installation ? Un docker compose, et trente secondes plus tard vous avez votre interface sur localhost:8080. J’avoue avoir relancé la commande deux fois, persuadé d’avoir loupé une étape. Non. C’était juste… simple.

    Ce qui m’a fait dire « OK, je l’adopte »

    Une fois le premier crawl lancé, l’interface m’a cueilli (vous avez la capture en haut de cet article). On est loin du tableau Excel austère : dashboard clair, explorer filtrable, exports CSV. Mais surtout, sous le capot, il y a du sérieux :

    • Le rendu JavaScript. Beaucoup de crawlers s’arrêtent au HTML brut et passent à côté de tout site moderne. Scouter, lui, exécute le JS via un binaire Go (Chromedp) — donc il voit ce que voit Google, même sur une SPA.
    • La détection de doublons par Simhash. Au lieu de comparer bêtement des chaînes de caractères, il calcule une empreinte du contenu et repère les pages quasi identiques. Idéal pour débusquer le contenu dupliqué qui plombe le référencement sans qu’on sache pourquoi.
    • Le PageRank interne. Il calcule comment la « popularité » circule entre vos pages. D’un coup d’œil, vous voyez quelles pages stratégiques sont sous-maillées et meurent au fond du site.
    • La catégorisation YAML. On classe les URLs par type (home, fiche produit, article, page légale…) en glisser-déposer. Et là, magie : au lieu d’un taux d’erreur global qui ne dit rien, vous voyez quel template est cassé. Une catégorie à 60 % de pages en erreur, ça pointe direct vers le fichier à corriger.

    Rien que ça, ça remplaçait déjà mon outil payant. Mais le meilleur était pour la fin.

    Le truc qui change tout : l’IA branchée sur les crawls

    Scouter expose un serveur MCP. Pour faire simple, c’est une prise sur laquelle on connecte un assistant IA — chez nous, c’est Claude. Résultat : au lieu de cliquer pendant vingt minutes dans des filtres, je parle à mes crawls.

    Je demande « quelles catégories de pages ont le plus de contenu pauvre ? », ou « liste-moi les pages en noindex qui reçoivent pourtant du PageRank », et la réponse tombe, en français, avec le raisonnement derrière. Pour une agence comme la nôtre, qui pousse justement le référencement SEO et GEO et l’audit technique, c’est devenu un réflexe quotidien. On ne fait plus l’audit puis l’analyse : les deux se fondent.

    De l’autre côté du miroir : j’en ai déjà construit un

    Si je m’enthousiasme autant, ce n’est pas un hasard. J’ai moi-même développé un outil de ce genre — un crawler d’analyse — pour un ami, pour son usage interne. Et pas sur un site vitrine : sur de très gros volumes, avec plusieurs interconnexions vers des outils externes (sources de données, API, briques métier qui devaient se parler).

    Croyez-moi, ce n’est pas anodin à construire. Crawler proprement, gérer la profondeur et la concurrence sans faire tomber le serveur d’en face, dédupliquer intelligemment, calculer un PageRank interne, brancher le tout sur d’autres systèmes et garder une interface lisible : derrière chaque case du tableau de bord se cachent des heures de travail — et quelques nuits blanches.

    C’est précisément pour ça que je mesure la valeur de Scouter. Quand on sait ce qu’il y a sous le capot, recevoir un outil de cette qualité en open-source, gratuit et auto-hébergeable, ça force le respect — et ça fait gagner un temps fou.

    Soyons honnêtes deux minutes

    Je ne vais pas vous vendre du rêve absolu. Scouter est auto-hébergé : il faut Docker et un minimum d’aise avec la ligne de commande. Si vous ne voulez rien installer, un SaaS clé en main restera plus confortable. Et c’est un projet jeune, qui bouge vite — donc on croise parfois une fonctionnalité en construction.

    Mais franchement ? Pour un outil gratuit, qui ne vous prend pas en otage, qui voit le JavaScript, qui calcule un PageRank interne et qui se laisse piloter à la voix par une IA… le rapport qualité/prix est tout simplement imbattable. (Et « gratuit », comme rapport, c’est dur à battre.)

    Cerise sur le gâteau : un créateur à l’écoute

    J’ai même eu la chance d’échanger directement avec Mehdi, le créateur de Scouter. On a discuté de quelques points d’architecture, et je me suis permis de lui glisser des idées de fonctionnalités qui me seraient utiles au quotidien. Et là, vraie surprise : une écoute rare. Pas de posture, pas de « on verra bien » poli — un vrai dialogue de passionné à passionné, avec l’envie sincère de faire avancer l’outil.

    C’est aussi ça, la magie de l’open-source : le produit n’est pas figé dans le marbre d’une roadmap commerciale, il évolue au contact de ceux qui s’en servent pour de vrai. Et quand la personne derrière est aussi accessible, on a vite envie de contribuer en retour.

    Pour tester

    Le projet vit sur GitHub — lokoe-mehdi/scouter — et la présentation est sur le site de Lokoe. Un git clone, un Docker, et vous crawlez votre premier site dans la foulée.

    Et puis, soyons un brin chauvins : voir un outil open-source de cette qualité sortir d’une équipe française, ça fait plaisir — et ça donne envie de le soutenir.

    Perso, je ne reviendrai pas en arrière. Et si vous gérez le SEO de plusieurs sites au quotidien, je parie que vous non plus.

    Partager

    En savoir plus

    Nos prestations associées

    SEO / GEO

    Référencement SEO & GEO

    Être trouvé sur Google et Bing, et cité par ChatGPT, Perplexity ou Claude. Référencement technique, sémantique et génératif — mesuré, pas promis.

    En savoir plus

    Audit

    Audit technique

    Évaluation indépendante de votre stack — code, sécurité, dette, scaling, coûts. Rapport actionnable, pas un PDF qui dort.

    En savoir plus