SEO Audit CLI
Audits SEO techniques par crawl avec rendu JS, Lighthouse, CrUX, rapports et comparaisons CI.
J'ai construit cet outil comme une alternative open source pour des audits SEO techniques répétables. Il crawle les sites, signale les problèmes de métadonnées, de canonicals, de hreflang, de liens internes et de données structurées, peut rendre les pages riches en JavaScript avec Playwright, enrichit les résultats avec les données CrUX et Lighthouse, et produit des rapports JSON, HTML, texte et PDF comparables en CI.
Le problème
Les équipes SEO assemblent un crawler, Lighthouse, Search Console et GA4 pour diagnostiquer pourquoi un site ne classe pas. Elles corrèlent manuellement le trafic avec les problèmes techniques, ratent les problèmes d'équité de liens internes, reçoivent de fausses alertes sur des pages sans trafic, et ne peuvent pas faire de tests de régression entre audits. SEO Audit livre tout cela dans un seul CLI.
L'approche
Un CLI TypeScript construit sur Playwright et Lighthouse. Le crawler gère sitemaps, retries, redirections et rendu JS pour SPA. Plus de cinquante vérifications couvrent métadonnées, canoniques, données structurées, Core Web Vitals, équité de liens et duplication de contenu. L'enrichissement optionnel via CrUX, Search Console et GA4 classe les findings par impact réel sur le trafic.
Décisions notables
- Crawls auto-persistés. Chaque exécution écrit dans ~/.config/seo-audit/crawls/<host>/ pour les diff et les vérifications de régression.
- Calcul de PageRank (damping 0.85, 20 itérations) qui révèle les pages importantes ne recevant qu'un seul lien interne.
- Détection de quasi-doublons par MinHash (Jaccard >= 0.85) qui regroupe le contenu à travers les pages.
- Sous-commande d'analyse de logs qui parse les logs d'accès, vérifie les bots via DNS inverse et les joint au crawl persisté pour des findings de pages orphelines et de cache obsolète.
- GitHub Action et flag --fail-on pour des gates CI contre les régressions.
Statut
Publié sur npm sous @davo20019/seo-audit. v0.8.0 sortie en avril 2026. Travaux récents sur l'analyse de logs, le support GA4, la déduplication de contenu et le PageRank de graphe de liens.
Want similar work for your team?
AI-native senior engineering for AI, cloud, and web. Open to consulting engagements and full-time roles.