Log File Analysis
透過伺服器 log 看爬蟲實際抓取行為:抓了哪些 URL、狀態碼、頻率、crawl waste 與錯誤頁。
定義
Log file analysis 是用伺服器存取日誌(access logs)分析爬蟲與使用者行為。SEO 上最常用來回答:Googlebot 真的有沒有抓到重要頁?是否在 crawl trap 浪費?哪裡一直回 4xx/5xx?這些都能從 log 找到真相。
為什麼重要
- 比工具推測更準:直接看『爬蟲實際做了什麼』
- 能找出 crawl waste、重複抓取與錯誤狀態碼
- 對大型站的技術 SEO 很關鍵
怎麼做(實作重點)
- 過濾 user-agent(Googlebot/Bingbot)與狀態碼統計
- 找出高頻抓取但低價值的 URL(參數/篩選頁)
- 把錯誤頁與 redirect chain 修到最小
相關連結
教學
常見問題
關於這個詞彙的常見問答。