robots.txt(開發人員版)
robots.txt 是 crawl 的入口守門員。寫對可以降低爬蟲浪費、避免抓到不該抓的頁;寫錯會直接把自己擋掉。
1) 先記住:robots.txt 不等於 noindex
- Disallow:不讓爬蟲抓
- noindex:不讓頁面進 SERP(要靠 meta robots 或 HTTP header)
相關詞彙:robots.txt、 noindex、 X-Robots-Tag
2) 範本:常見網站的 robots.txt
text
User-agent: *
Disallow: /admin
Disallow: /api
# Allow important assets (avoid blocking CSS/JS)
Allow: /assets/
Sitemap: https://example.com/sitemap.xml注意:不要 Disallow 你的 CSS/JS/圖片路徑,否則 Google 可能無法正確渲染,進而影響索引判斷。
3) 最快流程:用產生器產生 → 丟到 /robots.txt
- 打開 robots.txt 生成器,選擇要封鎖的路徑。
- 確認沒有擋到靜態資源與重要頁。
- 把內容放到站點根目錄的 `robots.txt`(Cloudflare Pages 也支援)。
延伸:可索引性檢查清單
4) 常見錯誤(直接讓你掉收錄)
- 把整站 Disallow(常見於 staging 設定被帶到 production)。
- 擋到 CSS/JS,導致 Google 渲染不完整。
- 以為 Disallow 就等於 noindex(結果頁面仍可能被收錄成「無內容摘要」)。
相關工具
常見問題
robots.txt 與索引指令的差異與陷阱。