[問題] 問個搜尋引擎機器人的問題還有HTTP 304的出現時機

看板Web_Design作者 (Cory)時間17年前 (2008/08/17 21:00), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串1/1
我自己架的網頁server有用robots.txt在攔搜尋引擎的機器人 但是最近檢查紀錄時 發現某家搜尋引擎的機器人真的非常糟糕 就是大陸的 Sogou 根本完全無視robots.txt嘛 早在第一次領教到大陸沒禮貌機器人的威力後 就用robots.txt並且也用來源IP封鎖的方式 封鎖了大陸的Sogou以及Baidu 最近是發現這兩家又多了別的IP(不同網域) 加入機器人的行列 其實中Baidu的還蠻有禮貌的 讀了robots.txt後就沒再讀其他東西了 而Sogou的呢 還是給我大量抓取資料 而且他們家的機器人讀robots.txt的頻率 明顯比其他各家搜尋引擎少 更莫名奇妙的是 他們家的機器人每次讀robots.txt伺服器都是回應304 (別家是一直都 200) 到底是在玩什麼把戲啊 304 (not modified)正常來說多半是用在圖片資料上吧? 而且在用過幾次304後應該也會正常下載一次資料(200)才對? 所以想問問看有沒有人有成功用robots.txt把Sogou擋掉過? 另外就是在user端用何種方法要求時server端會給304 ? p.s. 我用的是Apache 2.0 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.167.162.11

08/17 23:30, , 1F
我猜是不是用header 而不是完整的get 其實我也不是很懂...
08/17 23:30, 1F
文章代碼(AID): #18g23nAs (Web_Design)