跳至主要內容

    robots.txt(開發人員版)

    robots.txt 是 crawl 的入口守門員。寫對可以降低爬蟲浪費、避免抓到不該抓的頁;寫錯會直接把自己擋掉。

    1) 先記住:robots.txt 不等於 noindex

    • Disallow:不讓爬蟲抓
    • noindex:不讓頁面進 SERP(要靠 meta robots 或 HTTP header)

    相關詞彙:robots.txt noindex X-Robots-Tag

    2) 範本:常見網站的 robots.txt

    text
    User-agent: *
    Disallow: /admin
    Disallow: /api
    
    # Allow important assets (avoid blocking CSS/JS)
    Allow: /assets/
    
    Sitemap: https://example.com/sitemap.xml

    注意:不要 Disallow 你的 CSS/JS/圖片路徑,否則 Google 可能無法正確渲染,進而影響索引判斷。

    3) 最快流程:用產生器產生 → 丟到 /robots.txt

    1. 打開 robots.txt 生成器,選擇要封鎖的路徑。
    2. 確認沒有擋到靜態資源與重要頁。
    3. 把內容放到站點根目錄的 `robots.txt`(Cloudflare Pages 也支援)。

    延伸:可索引性檢查清單

    4) 常見錯誤(直接讓你掉收錄)

    • 把整站 Disallow(常見於 staging 設定被帶到 production)。
    • 擋到 CSS/JS,導致 Google 渲染不完整。
    • 以為 Disallow 就等於 noindex(結果頁面仍可能被收錄成「無內容摘要」)。

    相關工具

    常見問題

    robots.txt 與索引指令的差異與陷阱。