[問題] 問個搜尋引擎機器人的問題還有HTTP 304的出現時機
我自己架的網頁server有用robots.txt在攔搜尋引擎的機器人
但是最近檢查紀錄時 發現某家搜尋引擎的機器人真的非常糟糕
就是大陸的 Sogou 根本完全無視robots.txt嘛
早在第一次領教到大陸沒禮貌機器人的威力後
就用robots.txt並且也用來源IP封鎖的方式
封鎖了大陸的Sogou以及Baidu 最近是發現這兩家又多了別的IP(不同網域)
加入機器人的行列
其實中Baidu的還蠻有禮貌的 讀了robots.txt後就沒再讀其他東西了
而Sogou的呢 還是給我大量抓取資料 而且他們家的機器人讀robots.txt的頻率
明顯比其他各家搜尋引擎少
更莫名奇妙的是 他們家的機器人每次讀robots.txt伺服器都是回應304
(別家是一直都 200)
到底是在玩什麼把戲啊 304 (not modified)正常來說多半是用在圖片資料上吧?
而且在用過幾次304後應該也會正常下載一次資料(200)才對?
所以想問問看有沒有人有成功用robots.txt把Sogou擋掉過?
另外就是在user端用何種方法要求時server端會給304 ?
p.s. 我用的是Apache 2.0
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.167.162.11
推
08/17 23:30, , 1F
08/17 23:30, 1F