Robots協議-robots.txt寫法




User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow:/A 是屏蔽A目錄下的所有文件,包括文件和子目錄,還屏蔽 /A*.*的文件
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以“。htm”為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址(動態頁面)
Disallow: /.jpg$ 禁止抓取網頁所有的。jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: /*.htm$ 僅允許訪問以“。htm”為后綴的URL。
Allow: /*.gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖。如,Sitemap: http://www.***.com/sitemap.xml(此處請填寫XML地圖的絕對路徑,即完整URL,如果按習慣填寫Sitemap: /sitemap.xml,提交后會提示:檢測到無效的 Sitemap 網址;語法錯誤。XML地圖必須在網站根目錄下才有效。)
注:我們常用的搜索引擎類型有:(User-agent區分大小寫)
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
360蜘蛛:360Spider
sogou蜘蛛:Sogou Web Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
澤許蜘蛛: Zexuwhte