精品亚洲国产成人av,精品国产91久久久久久久a ,国产精品视频色拍拍

觸屏版
全國服務熱線：0571-87205688

價格查詢批量查詢一鍵轉入

查詢

或者

立即發布需求

昵稱：月光邊境

接單：599 關注TA

達標率 0%

博文分類

怎樣寫robots文件_robots文件寫法技巧_robot.txt的例子

作者：月光邊境 瀏覽：95次發布時間：2017-08-05

評論

贊0

資料一

　　1.robots.txt文件是什么

　　robots.txt是一個純文本文件，是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。每個站點最好建立一個robots.txt文件，對seo更友好。每當搜索蜘蛛來尋找并不存在的robots.txt文件時，服務器將在日志中記錄一條404錯誤，所以你應該在網站中添加一個robots.txt（即使這個robots.txt文件只是一個空文件）。

　　2.robots.txt的寫法（語法）

　　1）User-agent: 該項的值用于描述搜索引擎蜘蛛的名字。如果該項的值設為*，則該協議對任何機器人均有效。

　　2）Disallow: 該項的值用于描述不希望被訪問到的一個URL，一個目錄或者整個網站。以Disallow 開頭的URL 均不會被搜索引擎蜘蛛訪問到。任何一條Disallow 記錄為空，說明該網站的所有部分都允許被訪問。

　　3）用法舉例：

　　網站目錄下所有文件均能被所有搜索引擎蜘蛛訪問

　　User-agent: *

　　Disallow:

　　禁止所有搜索引擎蜘蛛訪問網站的任何部分

　　User-agent: *

　　Disallow: /

　　禁止所有的搜索引擎蜘蛛訪問網站的幾個目錄

　　User-agent: *

　　Disallow: /a/

　　Disallow: /b/

　　只允許某個搜索引擎蜘蛛訪問

　　User-agent: Googlebot

　　Disallow:

　　您應該限制網站某些文件不被蜘蛛抓取。

　　一般網站中不需要蜘蛛抓取的文件有：后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。

　　3.robots.txt文件帶來的風險以及解決

　　robots.txt 同時也帶來了一定的風險：其也給攻擊者指明了網站的目錄結構和私密數據所在的位置。設置訪問權限，對您的隱私內容實施密碼保護，這樣，攻擊者便無從進入。

　　4.常見搜索引擎蜘蛛Robots名字

　　Baiduspider ：http://www.baidu.com

　　Scooter ：http://www.altavista.com

　　ia_archiver： http://www.alexa.com

　　Googlebot ：http://www.google.com

　　Inktomi Slurp ：http://www.yahoo.com

　　FAST-WebCrawler： http://www.alltheweb.com

　　Slurp ：http://www.inktomi.com

　　MSNBOT ：http://search.msn.com

　　5.注意事項：

　　1）robots.txt必須放置在站點的根目錄下，而且文件名必須全部小寫。

　　2）不要在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取。

　　3）為安全考慮，建議很重要的文件夾不要寫在robots.txt文件中，或你只建一個空白robots.txt文件，在不要訪問的目錄中加入其它的技術（目前還在探索中……）。

　　seo會聚網robot.txt文件實例：www.seohj.com/robots.txt。

　　我們也可以通過Robots META標簽來針對一個個具體的頁面。關于Robots META標簽的詳細介紹在Robots META標簽用法。

　　1.語法：

　　2.說明：

　　在該語法中，搜索方式的值和其對應的含義如下:

　　all:頁面將被檢索，且頁面上的鏈接可以被查詢；

　　none:頁面不能被檢索，且頁面上的鏈接不可以被查詢；

　　index:頁面將被檢索，但不設置鏈接是否可以被查詢；

　　follow:頁面上的鏈接可以被查詢；

　　noindex:頁面不能被檢索，但頁面上的鏈接可以被查詢；

　　nofollow:頁面能被檢索，但頁面上的鏈接卻不可以被查詢。

　　3.實例：

　　該實例設定網頁能被檢索，但頁面上的鏈接卻不可以被查詢，代碼如下：

　　<html>

　　<head>

　　<title>限制搜索方式</title>

　　</head>

　　</html>

　　資料二

　　一．什么是robots.txt文件?

　　搜索引擎通過一種程序robot（又稱spider），自動訪問互聯網上的網頁并獲取網頁信息。

　　您可以在您的網站中創建一個純文本文件robots.txt，在這個文件中聲明該網站中不想被robot訪問的部分，這樣，該網站的部分或全部內容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內容。

　　二. robots.txt文件放在哪里?

　　robots.txt文件應該放在網站根目錄下。舉例來說，當robots訪問一個網站（比如http://www.abc.com）時，首先會檢查該網站中是否存在http://www.abc.com/robots.txt這個文件，如果機器人找到這個文件，它就會根據這個文件的內容，來確定它訪問權限的范圍。

　　網站 URL 相應的 robots.txt的 URL

　　http://www.w3.org/ http://www.w3.org/robots.txt

　　http://www.w3.org:80/ http://www.w3.org:80/robots.txt

　　http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt

　　http://w3.org/??http://w3.org/robots.txt

　　三. robots.txt文件的格式

　　"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開（以CR,CR/NL, or NL作為結束符），每一條記錄的格式如下所示：

　　"<field>:<optionalspace><value><optionalspace>"。

　　在該文件中可以使用#進行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow行,詳細情況如下：

　　User-agent:

　　該項的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多條User-agent記錄說明有多個robot會受到該協議的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設為*，則該協議對任何機器人均有效，在"robots.txt"文件中，"User-agent：*"這樣的記錄只能有一條。

　　Disallow :

　　該項的值用于描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow 開頭的URL均不會被robot訪問到。例如"Disallow: /help"對/help.html 和/help/index.html都不允許搜索引擎訪問，而"Disallow: /help/"則允許robot訪問/help.html，而不能訪問/help/index.html。

　　任何一條Disallow記錄為空，說明該網站的所有部分都允許被訪問，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果"/robots.txt"是一個空文件，則對于所有的搜索引擎robot，該網站都是開放的。

　　四. robots.txt文件用法舉例

　　例1. 禁止所有搜索引擎訪問網站的任何部分

　　下載該robots.txt文件

　　User-agent: *

　　Disallow: /

　　例2. 允許所有的robot訪問

　　(或者也可以建一個空文件 "/robots.txt" file)

　　User-agent: *

　　Disallow:

　　例3. 禁止某個搜索引擎的訪問

　　User-agent: BadBot

　　Disallow: /

　　例4. 允許某個搜索引擎的訪問

　　User-agent: baiduspider

　　Disallow:

　　User-agent: *

　　Disallow: /

　　例5. 一個簡單例子

　　在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。

　　需要注意的是對每一個目錄必須分開聲明，而不要寫成 "Disallow: /cgi-bin/ /tmp/"。

　　User-agent:后的* 具有特殊的含義，代表"any robot"，所以在該文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"這樣的記錄出現.

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　五. robots.txt文件參考資料

　　robots.txt文件的更具體設置,請參看以下鏈接：

　　· Web Server Administrator''s Guide to the Robots Exclusion Protocol

　　· HTML Author''s Guide to the Robots Exclusion Protocol

　　· The original 1994 protocol description, as currently deployed

　　· The revised Internet-Draft specification, which is not yet completed or implemented

　　在你的主頁中為Web Robot設計路標

　　Internet越來越酷，WWW的知名度如日中天。在Internet上發布公司信息、進行電子商務已經從時髦演化成時尚。作為一個Web Master，你可能對HTML、java script、Java、 ActiveX了如指掌，但你是否知道什么是Web Robot？你是否知道Web Robot和你所設計的主頁有什么關系？

　　Internet上的流浪漢--- Web Robot

　　有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引，即使你從未與他們有過任何聯系。其實這正是Web Robot的功勞。Web Robot其實是一些程序，它可以穿越大量Internet網址的超文本結構，遞歸地檢索網絡站點所有的內容。這些程序有時被叫 “蜘蛛（Spider）” ， “網上流浪漢（Web Wanderer）”，“網絡蠕蟲（web worms）”或Web crawler。一些Internet網上知名的搜索引擎站點（Search Engines）都有專門的Web Robot程序來完成信息的采集，例如Lycos，Webcrawler，Altavista等，以及中文搜索引擎站點例如北極星，網易，GOYOYO等。

　　Web Robot就象一個不速之客，不管你是否在意，它都會忠于自己主人的職責，任勞任怨、不知疲倦地奔波于萬維網的空間，當然也會光臨你的主頁，檢索主頁內容并生成它所需要的記錄格式。或許有的主頁內容你樂于世人皆知，但有的內容你卻不愿被洞察、索引。難道你就只能任其“橫行”于自己主頁空間，能否指揮和控制Web Robot的行蹤呢？答案當然是肯定的。只要你閱讀了本篇的下文，就可以象一個交通警察一樣，布置下一個個路標，告訴Web Robot應該怎么去檢索你的主頁，哪些可以檢索，哪些不可以訪問。

　　其實Web Robot能聽懂你的話

　　不要以為Web Robot是毫無組織，毫無管束地亂跑。很多Web Robot軟件給網絡站點的管理員或網頁內容制作者提供了兩種方法來限制Web Robot的行蹤：

　　1、Robots Exclusion Protocol 協議

　　網絡站點的管理員可以在站點上建立一個專門格式的文件，來指出站點上的哪一部分可以被robot訪問, 這個文件放在站點的根目錄下，即robots.txt." target="_blank">http://.../robots.txt.

　　2、Robots META tag

　　一個網頁作者可以使用專門的HTML META tag ，來指出某一個網頁是否可以被索引、分析或鏈接。

　　這些方法適合于大多數的Web Robot，至于是否在軟件中實施了這些方法，還依賴于 Robot的開發者，并非可以保證對任何Robot都靈驗。如果你迫切需要保護自己內容，則應考慮采用諸如增加密碼等其他保護方法。

　　使用Robots Exclusion Protocol協議

　　當Robot訪問一個 Web 站點時，比如http://www.sti.net.cn/，它先去檢查文件robots.txt" target="_blank">http://www.sti.net.cn/robots.txt。如果這個文件存在，它便會按照這樣的記錄格式去分析：

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　以確定它是否應該檢索站點的文件。這些記錄是專門給Web Robot看的，一般的瀏覽者大概永遠不會看到這個文件，所以千萬不要異想天開地在里面加入形似<img src=*> 類的HTML語句或是“How do you do? where are you from?”之類假情假意的問候語。

　　在一個站點上只能有一個 "/robots.txt" 文件，而且文件名的每個字母要求全部是小寫。在Robot的記錄格式中每一個單獨的"Disallow"行表示你不希望Robot訪問的URL，每個URL必須單獨占一行，不能出現 "Disallow: /cgi-bin/ /tmp/"這樣的病句。同時在一個記錄中不能出現空行，這是因為空行是多個記錄分割的標志。

　　User-agent行指出的是Robot或其他代理的名稱。在User-agent行，''*'' 表示一個特殊的含義---所有的robot。

　　下面是幾個robot.txt的例子：

　　在整個服務器上拒絕所有的robots：

　　User-agent: *

　　Disallow: /

　　允許所有的robots訪問整個站點：

　　User-agent: *

　　Disallow:

　　或者產生一個空的 "/robots.txt" 文件。

　　服務器的部分內容允許所有的robot訪問

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /private/

　　拒絕某一個專門的robot：

　　User-agent: BadBot

　　Disallow: /

　　只允許某一個robot光顧：

　　User-agent: WebCrawler

　　Disallow:

　　User-agent: *

　　Disallow: /

　　最后我們給出 http://www.w3.org/站點上的robots.txt：

　　# For use by search.w3.org

　　User-agent: W3Crobot/1

　　Disallow:

　　User-agent: *

　　Disallow: /Member/ # This is restricted to W3C Members only

　　Disallow: /member/ # This is restricted to W3C Members only

　　Disallow: /team/ # This is restricted to W3C Team only

　　Disallow: /TandS/Member # This is restricted to W3C Members only

　　Disallow: /TandS/Team # This is restricted to W3C Team only

　　Disallow: /Project

　　Disallow: /Systems

　　Disallow: /Web

　　Disallow: /Team

　　使用Robots META tag方式

　　Robots META tag 允許HTML網頁作者指出某一頁是否可以被索引，或是否可以用來查找更多的鏈接文件。目前只有部分robot實施了這一功能。

　　Robots META tag的格式為：

　　象其他的META tag一樣，它應該放在HTML文件的HEAD區：

　　<html>

　　<head>

　　</head>

　　<body>

　　...

　　Robots META tag指令使用逗號隔開，可以使用的指令包括 [NO]INDEX 和[NO]FOLLOW。INDEX 指令指出一個索引性robot是否可以對本頁進行索引；FOLLOW 指令指出robot是否可以跟蹤本頁的鏈接。缺省的情況是INDEX和FOLLOW。例如：

　　一個好的Web 站點管理員應該將robot的管理考慮在內，使robot為自己的主頁服務，同時又不損害自己網頁的安全

　　資料三

　　什么是robots.txt？

　　robots.txt

　　robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。

　　當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議，僅當您的網站包含不希望被搜索引擎收錄的內容時，才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容，請勿建立robots.txt文件。

　　robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫。

　　語法：最簡單的 robots.txt 文件使用兩條規則：

　　? User-Agent: 適用下列規則的漫游器

　　? Disallow: 要攔截的網頁

　　robots.txt在SEO中作用

　　在進行網站優化的時候，經常會使用robots文件把一些內容不想讓蜘蛛抓取，以前寫過一篇網站優化robots.txt文件的運用, 現在寫這編文章在補充一點點知識！什么是robots.txt文件

　　搜索引擎通過一種爬蟲spider程序（又稱搜索蜘蛛、robot、搜索機器人等），自動搜集互聯網上的網頁并獲取相關信息。

　　鑒于網絡安全與隱私的考慮，搜索引擎遵循robots.txt協議。通過根目錄中創建的純文本文件robots.txt，網站可以聲明不想被robots訪問的部分。每個網站都可以自主控制網站是否愿意被搜索引擎收錄，或者指定搜索引擎只收錄指定的內容。當一個搜索引擎的爬蟲訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果該文件不存在，那么爬蟲就沿著鏈接抓取，如果存在，爬蟲就會按照該文件中的內容來確定訪問的范圍。

　　robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫。robots.txt文件的格式

　　User-agent: 定義搜索引擎的類型

　　Disallow: 定義禁止搜索引擎收錄的地址

　　Allow: 定義允許搜索引擎收錄的地址

　　我們常用的搜索引擎類型有： (User-agent區分大小寫)

　　google蜘蛛：Googlebot

　　百度蜘蛛：Baiduspider

　　yahoo蜘蛛：Yahoo!slurp

　　alexa蜘蛛：ia_archiver

　　bing蜘蛛：MSNbot

　　altavista蜘蛛：scooter

　　lycos蜘蛛：lycos_spider_(t-rex)

　　alltheweb蜘蛛：fast-webcrawler

　　inktomi蜘蛛： slurp

　　Soso蜘蛛:Sosospider

　　Google Adsense蜘蛛:Mediapartners-Google

　　有道蜘蛛:YoudaoBot

　　robots.txt文件的寫法

　　User-agent: * 這里的*代表的所有的搜索引擎種類，*是一個通配符

　　Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

　　Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

　　Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

　　Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

　　Disallow: /*?* 禁止訪問網站中所有的動態頁面

　　Disallow: /jpg$ 禁止抓取網頁所有的.jpg格式的圖片

　　Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html文件。

　　Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄

　　Allow: /tmp 這里定義是允許爬尋tmp的整個目錄

　　Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。

　　Allow: .gif$ 允許抓取網頁和gif格式圖片

　　robots.txt文件用法舉例

　　例1. 禁止所有搜索引擎訪問網站的任何部分

　　User-agent: *

　　Disallow: /

　　實例分析：淘寶網的 Robots.txt文件

　　User-agent: Baiduspider

　　Disallow: /

　　User-agent: baiduspider

　　Disallow: /

　　很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。

　　例2. 允許所有的robot訪問 (或者也可以建一個空文件 “/robots.txt” file)

　　User-agent: *

　　Allow:

　　例3. 禁止某個搜索引擎的訪問

　　User-agent: BadBot

　　Disallow: /

　　例4. 允許某個搜索引擎的訪問

　　User-agent: Baiduspider

　　allow:/

　　例5.一個簡單例子

　　在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。

　　需要注意的是對每一個目錄必須分開聲明，而不要寫成 “Disallow: /cgi-bin/ /tmp/”。

　　User-agent:后的*具有特殊的含義，代表“any robot”，所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現。

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　Robot特殊參數：

　　允許 Googlebot：

　　如果您要攔截除 Googlebot 以外的所有漫游器不能訪問您的網頁，可以使用下列語法：

　　User-agent:

　　Disallow:/

　　User-agent:Googlebot

　　Disallow:

　　Googlebot 跟隨指向它自己的行，而不是指向所有漫游器的行。

　　“Allow”擴展名：

　　Googlebot 可識別稱為“Allow”的 robots.txt 標準擴展名。其他搜索引擎的漫游器可能無法識別此擴展名，因此請使用您感興趣的其他搜索引擎進行查找。“Allow”行的作用原理完全與“Disallow”行一樣。只需列出您要允許的目錄或頁面即可。

　　您也可以同時使用“Disallow”和“Allow”。例如，要攔截子目錄中某個頁面之外的其他所有頁面，可以使用下列條目：

　　User-agent:Googlebot

　　Disallow:/folder1/

　　Allow:/folder1/myfile.html

　　這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。

　　如果您要攔截 Googlebot 并允許 Google 的另一個漫游器（如 Googlebot-Mobile），可使用”Allow”規則允許該漫游器的訪問。例如：

　　User-agent:Googlebot

　　Disallow:/

　　User-agent:Googlebot-Mobile

　　Allow:

　　使用 * 號匹配字符序列：

　　您可使用星號 (*) 來匹配字符序列。例如，要攔截對所有以 private 開頭的子目錄的訪問，可使用下列條目：

　　User-Agent:Googlebot

　　Disallow:/private*/

　　要攔截對所有包含問號 (?) 的網址的訪問，可使用下列條目：

　　User-agent:*

　　Disallow:/*?*

　　使用 $ 匹配網址的結束字符

　　您可使用 $ 字符指定與網址的結束字符進行匹配。例如，要攔截以 .asp 結尾的網址，可使用下列條目：

　　User-agent:Googlebot

　　Disallow:/*.asp$

　　您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 表示一個會話 ID，您可排除所有包含該 ID 的網址，確保 Googlebot 不會抓取重復的網頁。但是，以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下，可對 robots.txt 文件進行如下設置：

　　User-agent:*

　　Allow:/*?$

　　Disallow:/*?

　　Disallow:/ *?

　　一行將攔截包含 ? 的網址（具體而言，它將攔截所有以您的域名開頭、后接任意字符串，然后是問號 (?)，而后又是任意字符串的網址）。

　　Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址（具體而言，它將允許包含所有以您的域名開頭、后接任意字符串，然后是問號 (?)，問號之后沒有任何字符的網址）。

　　Robots Meta標簽

　　Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況，而Robots Meta標簽則主要是針對一個個具體的頁面。和其他的META標簽（如使用的語言、頁面的描述、關鍵詞等）一樣，Robots Meta標簽也是放在頁面中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。

　　Robots Meta標簽中沒有大小寫之分，name=”Robots”表示所有的搜索引擎，可以針對某個具體搜索引擎寫為name=”BaiduSpider”。content部分有四個指令選項：index、noindex、follow、nofollow，指令間以“,”分隔。

　　index指令告訴搜索機器人抓取該頁面；

　　follow指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去；

　　Robots Meta標簽的缺省值是index和follow，只有inktomi除外，對于它，缺省值是index、nofollow。

　　需要注意的是：

　　上述的robots.txt和Robots Meta標簽限制搜索引擎機器人（ROBOTS）抓取站點內容的辦法只是一種規則，需要搜索引擎機器人的配合才行，并不是每個ROBOTS都遵守的。

　　目前看來，絕大多數的搜索引擎機器人都遵守robots.txt的規則，而對于RobotsMETA標簽，目前支持的并不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個指令“archive”，可以限制GOOGLE是否保留網頁快照。

　　編輯本段robots.txt使用誤區

　　特別提示：robots里面內容的大小寫不可更改，Disallow后面的冒號必須為英文狀態的。

　　誤區一

　　網站上所有的文件都需要被蜘蛛抓取，那就沒必要添加robots.txt文件了。反正如果該文件不存在，所有的搜索蜘蛛將默認能夠訪問網站上所有沒有被口令保護的頁面。

　　誤區二

　　在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取，這樣可以增加網站的收錄率。

　　網站中的腳本程序、樣式表等文件即使被蜘蛛收錄，也不會增加網站的收錄率，還只會占用服務器存儲空間。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引腳本程序、樣式表等文件，具體哪些文件需要排除，在robots.txt使用技巧一文中有詳細介紹。

　　誤區三

　　搜索蜘蛛抓取網頁太浪費服務器資源，在robots.txt文件中設置所有的搜索蜘蛛都不能抓取全部的網頁。

　　如果這樣的話，會導致整個網站不能被搜索引擎收錄。

　　編輯本段robots.txt使用技巧

　　文件

　　1. 每當用戶試圖訪問某個不存在的URL時，服務器都會在日志中記錄404錯誤（無法找到文件）。每當搜索蜘蛛來尋找并不存在的robots.txt文件時，服務器也將在日志中記錄一條404錯誤，所以你應該在網站中添加一個robots.txt。

　　2. 網站管理員必須使蜘蛛程序遠離某些服務器上的目錄——保證服務器性能。比如：大多數網站服務器都有程序儲存在“cgi-bin”目錄下，因此在robots.txt文件中加入“Disallow: /cgi-bin/”是個好主意，這樣能夠避免將所有程序文件被蜘蛛索引，可以節省服務器資源。一般網站中不需要蜘蛛抓取的文件有：后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。

　　下面是VeryCMS里的robots.txt文件：

　　User-agent: *

　　Disallow: /admin/ 后臺管理文件

　　Disallow: /require/ 程序文件

　　Disallow: /attachment/ 附件

　　Disallow: /images/ 圖片

　　Disallow: /data/ 數據庫文件

　　Disallow: /template/ 模板文件

　　Disallow: /css/ 樣式表文件

　　Disallow: /lang/ 編碼文件

　　Disallow: /script/ 腳本文件

　　3. 如果你的網站是動態網頁，并且你為這些動態網頁創建了靜態副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設置避免動態網頁被蜘蛛索引，以保證這些網頁不會被視為含重復內容。

　　4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣：

　　Sitemap: http://www.***.com/sitemap.xml

　　(此處請填寫XML地圖的絕對路徑，即完整URL，如果按習慣填寫Sitemap: /sitemap.xml，提交后會提示：檢測到無效的 Sitemap 網址；語法錯誤。

　　XML地圖必須在網站根目錄下才有效。)

　　目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司，顯然不在這個圈子內。這樣做的好處是，站長不用到每個搜索引擎的站長工具或者相似的站長部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就會抓取robots.txt文件，讀取其中的sitemap路徑，接著抓取其中相鏈接的網頁。

　　5. 合理使用robots.txt文件還能避免訪問時出錯。比如，不能讓搜索者直接進入購物車頁面。因為沒有理由使購物車被收錄，所以你可以在robots.txt文件里設置來阻止搜索者直接進入購物車頁面。

　　robots.txt文件的格式

　　"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開（以CR,CR/NL, or NL作為結束符），每一條記錄的格式如下所示：

　　"<field>:<optionalspace><value><optionalspace>"。

　　在該文件中可以使用#進行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow和Allow行,詳細情況如下：

　　User-agent:

　　該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設為*，則對任何robot均有效，在"robots.txt"文件中，"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中，加入"User-agent:SomeBot"和若干Disallow、Allow行，那么名為"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。

　　Disallow:

　　該項的值用于描述不希望被訪問的一組URL，這個值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項的值開頭的URL不會被robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html，而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html，不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網站的所有url，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件，則對于所有的搜索引擎robot，該網站都是開放的。

　　Allow:

　　該項的值用于描述希望被訪問的一組URL，與Disallow項相似，這個值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項的值開頭的URL是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的，所以Allow通常與Disallow搭配使用，實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。

　　需要特別注意的是Disallow與Allow行的順序是有意義的，robot會根據第一個匹配成功的Allow或Disallow行確定是否訪問某個URL。

　　使用"*"和"$"：

　　Baiduspider支持使用通配符"*"和"$"來模糊匹配url。

　　"$" 匹配行結束符。

　　"*" 匹配0或多個任意字符。

　　robots.txt文件字符編碼

　　robots.txt使用什么字符編碼，并沒有相關規定，都是各搜索引擎自已定義的。雖然google和其它搜索引擎建議大家使用 utf-8 字符編碼格式的robots.txt，但幾乎所有的搜索引擎都支持 ANSI 編碼格式，而google自已對 utf-8 編碼格式的robots.txt，會出現首字亂碼。所以為了達到最大的兼容性，建議大家使用 ANSI 格式編碼，或者使用 utf-8 編碼格式，但需要空出首行。

　　還有一個建議就是robots.txt中最好不要出現中文，即使是注釋也要使用英文。

　　robots.txt文件用法舉例

　　例1.禁止所有搜索引擎訪問網站的任何部分 User-agent: *

　　Disallow: /

　　例2.允許所有的robot訪問

　　(或者也可以建一個空文件 "/robots.txt") 第1種寫法

　　User-agent: *

　　Allow: /

　　第2種寫法

　　User-agent: *

　　Allow:

　　第3種寫法

　　User-agent: *

　　Disallow:

　　例3. 僅禁止Baiduspider訪問您的網站 User-agent: Baiduspider

　　Disallow: /

　　例4. 僅允許Baiduspider訪問您的網站 User-agent: Baiduspider

　　Allow: /

　　例5. 禁止spider訪問特定目錄

　　在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明，而不能寫成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例6. 允許訪問特定目錄中的部分url User-agent: *

　　Allow: /cgi-bin/see

　　Allow: /tmp/hi

　　Allow: /~joe/look

　　例7. 使用"*"限制訪問url

　　禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

　　User-agent: *

　　Disallow: /cgi-bin/*.htm

　　例8. 使用"$"限制訪問url

　　僅允許訪問以".htm"為后綴的URL。 User-agent: *

　　Allow: / .htm$

　　例9. 禁止訪問網站中所有的動態頁面 User-agent: *

　　Disallow: /*?*

　　例10. 禁止Baiduspider抓取網站上所有圖片

　　僅允許抓取網頁，禁止抓取任何圖片。 User-agent: Baiduspider

　　Disallow: /*.jpg$

　　Disallow: /* .jpeg$

　　Disallow: /* .gif$

　　Disallow: /* .png$

　　Disallow: /*.bmp$

　　例11. 僅允許Baiduspider抓取網頁和。gif格式圖片

　　允許抓取網頁和gif格式圖片，不允許抓取其他格式圖片 User-agent: Baiduspider

　　Allow: .gif$

　　Disallow: /.jpg$

　　Disallow: / .jpeg$

　　Disallow: / .png$

　　Disallow: /.bmp$

　　例12. 僅禁止Baiduspider抓取。jpg格式圖片 User-agent: /Baiduspider

　　Disallow: /.jpg$

　　百度各個產品使用不同的user-agent：

　　無線搜索 Baiduspider-mobile

　　圖片搜索 Baiduspider-image

　　視頻搜索 Baiduspider-video

　　新聞搜索 Baiduspider-news

　　百度搜藏 Baiduspider-favo

　　百度聯盟 Baiduspider-cpro

　　商務搜索 Baiduspider-ads

　　網頁以及其他搜索 Baiduspider

上一篇：為什么網站有排名,也沒人咨詢？ 下一篇：移動端網站SEO指南-APP篇

評論(0人參與，0條評論)

發布評論

博文分類

怎樣寫robots文件_robots文件寫法技巧_robot.txt的例子

猜你喜歡

評論(0人參與，0條評論)

最新評論