[教學] 如何掌控robots對自己網站的存取?

看板Blog作者Flying (花水木)時間18年前 (2007/07/08 09:47)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

原文 : http://hanamitsuki.com/blog-tech/robots-txt.htm 　　今天瞭解了一下這部分，因為網站這麼多東西，也許會有些東西是不想被搜尋到的，比方說只是要暫時上傳到空間、或是開一個目錄拿來放現在正在進行測試的網站等等(我接case時就會必須放到我的空間測試)，又不能直接關掉權限，因為還是需要能夠存取，這種情況又不希望被登記到搜尋引擎裡面弄亂我的網站索引。所以就需要用到robots.txt 這個檔案。　　其實Google在這部分說得滿清楚了。以下我整理出一些要點。 1. robots.txt 必須存放在網域的根目錄。 2. 語法：User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)？」 3. googlebot特有語法：Allow，讓google某些bot搜尋剛剛你有Disallow過的特定資料。 4. 使用「*」來代表一串任意字元 5. 使用「$」表示 URL 的結尾字元(副檔名) 　範例：所有robots無法檢索目錄folder1 User-Agent:* Disallow: /folder1/ 所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html User-Agent:* Disallow: /folder1/ Allow:/folder1/myfile.html 無法檢索特定檔案 User-Agent:* Disallow: /private_file.html 無法檢索特定檔案類型 User-Agent:* Disallow: /*.gif$ 無法檢索動態產生的網頁 User-Agent:* Disallow: /*? 只讓google adsense檢索某網頁 User-Agent:* Disallow:/folder1/ User-Agent:MediaPartners-Google Allow:/folder1/ 攔截所有以 private 開頭之子目錄的存取 User-Agent:Googlebot Disallow:/private*/ 　常用User-Agent列表(Robots)： * Googlebot：Google 網頁索引及新聞索引 * MediaPartners-Google：Google Adsense 索引網頁以決定廣告內容 * Googlebot-Mobile：Google手機網頁索引 * Googlebot-Image：索引網站裡的圖片 * Adsbot-Google：索引廣告主的廣告網頁來看品質如何 * Feedfetcher-Google：Google的Feed/RSS索引 * MSNBot：MSN 索引機器人 * del.icio.us-thumbnails：del.icio.us的網站縮略圖擷圖robot * Yahoo-Blogs：Yahoo部落格索引 * Yahoo-MMAudVid：Yahoo多媒體檔案索引 * YahooFeedSeeker：Yahoo的Feed/RSS索引詳細延伸閱讀請見:http://hanamitsuki.com/blog-tech/robots-txt.htm -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 116.59.122.137

‣ 返回看板[ Blog ] 生活

‣ 更多 Flying 的文章

文章代碼(AID): #16a49Btl (Blog)