Open SourceFeatured

SEO Audit CLI

基于爬取的技术 SEO 审计,支持 JS 渲染、Lighthouse、CrUX、报告和 CI 差异对比。

TypeScriptPlaywrightLighthouseCrUXCheerioVitest

我将它构建为一个开源替代方案,用于可重复的技术 SEO 审计。它会爬取网站,发现元数据、canonical、hreflang、内部链接和结构化数据问题,可用 Playwright 渲染 JavaScript 较重的页面,用 CrUX 和 Lighthouse 数据丰富结果,并生成可在 CI 中对比的 JSON、HTML、文本和 PDF 报告。

问题

SEO 团队拼凑 crawler、Lighthouse、Search Console 和 GA4 来诊断为什么站点没有排名。他们手动把流量与技术问题对应起来,漏掉内部链接权重问题,在没有流量的页面上误报,并且在两次审计之间无法做回归测试。SEO Audit 把这些都装进一个 CLI 里。

方案

一个基于 Playwright 和 Lighthouse 的 TypeScript CLI。Crawler 处理 sitemap、重试、重定向和针对 SPA 的 JS 渲染。五十多项检查覆盖元数据、canonical、结构化数据、Core Web Vitals、链接权重和内容重复。CrUX、Search Console 和 GA4 的可选增强按真实流量影响对发现项排序。

关键决策

  • 自动持久化 crawl。每次运行会写入 ~/.config/seo-audit/crawls/<host>/,用于 diff 和回归检查。
  • PageRank 计算(damping 0.85,20 次迭代)会暴露那些只获得一个内部链接的核心页面。
  • 基于 MinHash 的近似重复检测(Jaccard >= 0.85)跨页面聚类内容。
  • 日志分析子命令解析访问日志,通过反向 DNS 验证爬虫,并与持久化的 crawl 关联,得到孤立页面和过期缓存的发现项。
  • GitHub Action 与 --fail-on 标志,在 CI 中对回归进行门槛拦截。

状态

已发布到 npm,包名 @davo20019/seo-audit。v0.8.0 于 2026 年 4 月发布。近期工作集中在日志分析、GA4 支持、内容去重和链接图 PageRank。

Want similar work for your team?

AI-native senior engineering for AI, cloud, and web. Open to consulting engagements and full-time roles.