Robots的完整寫法




作為SEO人Robots的寫法作為必須了解的內(nèi)容之一,錯誤的寫法可能給你帶來不被搜索引擎收錄的惡果。
Robots文本中,因先寫出對什么搜索引擎生效,然后是禁止抓取目錄,允許抓取目錄。
User-agent: 語句表示對什么搜索引擎的規(guī)則,如果內(nèi)容是“*”,則表示對所有搜索引擎生效。
Baiduspider表示百度蜘蛛;
Googlebot 表示谷歌蜘蛛;
360Spider 表示360蜘蛛;
寫了針對的蜘蛛后,就需要寫具體的禁止抓取哪些目錄,允許哪些目錄。
Disallow: 表示禁止抓取后面的目錄;
Allow: 表示允許抓取后面的目錄。
* 是個通配符,可以代替任意內(nèi)容。
$ 字符指定與網(wǎng)址的結(jié)束字符進行匹配。
例如,要攔截以 .asp 結(jié)尾的網(wǎng)址,可使用下列條目:
User-Agent:*
Disallow:/*.asp$
例:
Disallow:/admin/ 禁止訪問/admin/目錄的內(nèi)容。
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號(?) 的網(wǎng)址。
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄。
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
完整寫法:
User-agent:* /**以下內(nèi)容針對所有搜索引擎
Diasllow:/admin/ /**禁止訪問/admin/目錄的內(nèi)容
*****
Allow:/html/ /**允許訪問/html/目錄的內(nèi)容
*****
作為新手對Robots不是很明確的朋友,可以不寫Robots.txt文件,以免錯誤的寫發(fā)導(dǎo)致內(nèi)容的不收錄。
Robots最多的用途是屏蔽網(wǎng)站的后臺目錄,以免被收錄后,被heike所利用;以及保護自己的版權(quán)資源,以免被搜索引擎收錄了以后,展示在搜索結(jié)果里。