跳至主要內容

    可索引性(Indexability)檢查清單

    你想拿全球第一名,第一步永遠是「先讓搜尋引擎能抓、能理解、能索引」。這篇提供一套開發者可直接落地的排查流程,並串接本站工具與詞彙表。

    先釐清:Crawl vs Index

    • 可爬取(crawlable):爬蟲能不能拿到回應與內容(robots.txt、登入牆、狀態碼)
    • 可索引(indexable):搜尋引擎願不願意把它放進 SERP(noindex、canonical、品質/重複)

    相關詞彙:meta robots X-Robots-Tag canonical URL

    1) HTTP 狀態碼:先確定你回的是 200

    搜尋引擎索引的基礎是可取得的內容:重要頁面應該回 200。長期的 3xx 鏈式轉址、或 4xx/5xx 都會讓收錄與排名不穩。

    http
    HTTP/1.1 200 OK
    Content-Type: text/html; charset=utf-8

    延伸:301 Redirect 302 Redirect

    2) robots/noindex:不要把自己擋掉

    常見的「突然整站不見」都跟 robots/noindex 有關。記住三件事:

    • robots.txt 控制爬取(crawl),不等於 noindex
    • meta robots / X-Robots-Tag 控制索引(index)
    • 要讓 noindex 生效,爬蟲必須能抓到頁面或回應(不要 Disallow 掉)
    html
    <!-- HTML meta robots -->
    <meta name="robots" content="noindex, follow" />
    http
    # HTTP header (useful for PDFs/non-HTML)
    X-Robots-Tag: noindex, nofollow

    延伸:noindex robots.txt

    3) canonical:指定「主版本」避免重複內容

    同一內容有多個 URL(參數、排序、追蹤碼、語言路徑)時,搜尋引擎可能選錯 URL 來排名。用 canonical 與一致的內鏈把訊號集中到主版本。

    html
    <link rel="canonical" href="https://seo.lucas-futures.com/tools/indexability-checker" />

    延伸:重複內容

    4) JavaScript 渲染:SPA/CSR 要提供每路徑 HTML

    你可以用 CSR 做產品,但要拿第一名,重要內容頁最好能在第一時間就有完整 HTML(SSR/SSG/prerender)。否則爬蟲必須執行 JS,收錄延遲與不確定性會上升。

    延伸:JavaScript SEO prerendering SSG SSR

    快速排查流程(建議照順序)

    1. 看 HTTP:是否 200?是否有 redirect chain?
    2. 看索引指令:meta robots / X-Robots-Tag 是否意外 noindex?
    3. 看 canonical:是否指向自己或正確主版本?
    4. 看 robots.txt:是否 Disallow 了重要資源/路徑?
    5. 看渲染:View Source 是否已有關鍵內容?

    工具入口:索引狀態檢查器

    相關工具

    常見問題

    關於索引與收錄問題的排查重點。