跳至主要內容

    robots.txt

    robots.txt 控制「能不能爬取」,noindex 控制「能不能索引」。兩者差很多。

    定義

    robots.txt 是放在網站根目錄的純文字檔案,用來告訴爬蟲哪些路徑允許爬取(crawl)。它不等於存取控制,也不保證能阻擋惡意爬蟲。

    為什麼重要

    • 避免爬蟲浪費資源在不重要的路徑(例如後台)
    • 避免誤擋 CSS/JS 影響渲染與索引判斷
    • 搭配 sitemap 提升發現效率
    • 管理大型網站的爬取預算(crawl budget)
    • 防止開發/測試環境被意外索引
    • 控制特定爬蟲的存取(例如封鎖 AI 訓練爬蟲)
    • 是搜尋引擎的第一個存取點,設定錯誤影響全站

    怎麼做(實作重點)

    • robots.txt 放在根目錄:/robots.txt
    • 不要阻擋必要資源(CSS/JS/圖片)
    • 想避免出現在搜尋結果,用 noindex(meta 或 header),不是用 robots.txt
    • 使用 User-agent 指定特定爬蟲規則
    • 加上 Sitemap 指令指向 sitemap 位置
    • 定期檢查 Search Console 的爬取狀態報告
    • 用 robots.txt 測試工具驗證規則是否正確

    範例

    txt
    # 基本 robots.txt
    User-agent: *
    Allow: /
    Disallow: /admin/
    Disallow: /api/
    Disallow: /private/
    
    # 允許爬取 CSS/JS
    Allow: /*.css
    Allow: /*.js
    
    Sitemap: https://example.com/sitemap.xml
    txt
    # 封鎖特定 AI 訓練爬蟲
    User-agent: GPTBot
    Disallow: /
    
    User-agent: CCBot
    Disallow: /
    
    # 但允許 Googlebot
    User-agent: Googlebot
    Allow: /
    
    Sitemap: https://example.com/sitemap.xml

    相關連結

    常見問題

    關於這個詞彙的常見問答。

    回到詞彙表