跳至主要內容

    Log File Analysis

    透過伺服器 log 看爬蟲實際抓取行為:抓了哪些 URL、狀態碼、頻率、crawl waste 與錯誤頁。

    定義

    Log file analysis 是用伺服器存取日誌(access logs)分析爬蟲與使用者行為。SEO 上最常用來回答:Googlebot 真的有沒有抓到重要頁?是否在 crawl trap 浪費?哪裡一直回 4xx/5xx?這些都能從 log 找到真相。

    為什麼重要

    • 比工具推測更準:直接看『爬蟲實際做了什麼』
    • 能找出 crawl waste、重複抓取與錯誤狀態碼
    • 對大型站的技術 SEO 很關鍵

    怎麼做(實作重點)

    • 過濾 user-agent(Googlebot/Bingbot)與狀態碼統計
    • 找出高頻抓取但低價值的 URL(參數/篩選頁)
    • 把錯誤頁與 redirect chain 修到最小

    相關連結

    常見問題

    關於這個詞彙的常見問答。

    回到詞彙表