關于這個正確的寫法,蛋疼博客-老林參考了很多作者的寫法、還有百度的文獻,發現有的作者解釋或者寫法太過簡單,造成新手不易理解,當然蛋疼博客-老林也不敢保證百分百解釋得讓你很明白.
是以什么形式存在?就是一份網站和搜索引擎雙方簽訂的規則協議書.每一個搜索引擎的蜘蛛訪問一個站點時,它首先爬行來檢查該站點根目錄下是否存在.如果存在,蜘蛛就會按照該協議書上的規則來確定自己的訪問范圍;如果沒有,那么蜘蛛就會沿著鏈接抓取.
請牢牢記住:必須放置在站點的根目錄下,而且文件名必須全部小寫.Disallow后面的冒號必須為英文狀態的.
我們先來理解User-agent和Disallow的定義.
● User-agent:該項用于描述搜索引擎蜘蛛的名字.(1)規定所有蜘蛛:User-agent:*;(2)規定某一個蜘蛛:User-agent:BaiduSpider.
● Disallow:該項用于描述不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑.這有幾種不同定義和寫法:(1)Disallow:/,任何以域名+Disallow描述的內容開頭的URL均不會被蜘蛛訪問,也就是說以目錄內的文件均不會被蜘蛛訪問;(2)Disallow:/則允許robots抓取和索引,而不能抓取和索引;(3)如果Disallow記錄為空,說明該網站的所有部分都允許被訪問.在文件中,至少應有Disallow記錄,如果為空文件,則對所有的搜索引擎robot來說,該網站都是開放的.
1、國內建站需要用到的常見搜索引擎robot的名稱.
有時候我們覺得網站訪問量(IP)不多,但是網站流量為什么耗的快?有很多的原因是垃圾(沒有)蜘蛛爬行和抓取消耗的.而網站要屏蔽哪個搜索引擎或只讓哪個搜索引擎收錄的話,首先要知道每個搜索引擎robot的名稱.
2、文件基本常用寫法:
首先,你先建一個空白文本文檔(記事本),然后命名為:.
(1)禁止所有搜索引擎訪問網站的任何部分.
User-agent: *
Disallow: /
(2)允許所有的robots訪問,無任何限制.
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
還可以建立一個空文件或者不建立.
(3)僅禁止某個搜索引擎的訪問(例如:百度baiduspider)
User-agent: BaiduSpider
Disallow:/
(4)允許某個搜索引擎的訪問(還是百度)
User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
這里需要注意,如果你還需要允許谷歌bot,那么也是在"User-agent: *"前面加上,而不是在"User-agent: *"后面.
(5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件).
User-agent: *
Disallow: /
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
這樣寫之后,所有搜索引擎都不會訪問這2個目錄.需要注意的是對每一個目錄必須分開說明,而不要寫出"Disallow:/ /admin/".
歡迎轉載【詳細的robots.txt學習方法】,請注明轉自:上海seo優化公司 http://www.seo-999.com/article/6346s.html!
評論(0人參與,0條評論)
發布評論
最新評論