99rv精品视频在线播放,97视频精品全国在线观看,中文字幕日韩精品一区二区三区

觸屏版
全國服務(wù)熱線：0571-87205688

價(jià)格查詢批量查詢一鍵轉(zhuǎn)入

查詢

或者

立即發(fā)布需求

robots協(xié)議

作者：聚擎瀏覽：1510次發(fā)布時(shí)間：2017-04-23

編輯

評(píng)論

贊0

簡介

robots.txt文件是一個(gè)文本文件，使用任何一個(gè)常見的文本編輯器，比如Windows系統(tǒng)自帶的Notepad，就可以創(chuàng)建和編輯它^[1] 。robots.txt是一個(gè)協(xié)議，而不是一個(gè)命令。robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。百度官方建議，僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí)，才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容，請勿建立robots.txt文件。

如果將網(wǎng)站視為酒店里的一個(gè)房間，robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個(gè)文件告訴來訪的搜索引擎哪些房間可以進(jìn)入和參觀，哪些房間因?yàn)榇娣刨F重物品，或可能涉及住戶及訪客的隱私而不對(duì)搜索引擎開放。但robots.txt不是命令，也不是防火墻，如同守門人無法阻止竊賊等惡意闖入者。

原則

robots協(xié)議原理

Robots協(xié)議是國際互聯(lián)網(wǎng)界通行的道德規(guī)范，基于以下原則建立：

1、搜索技術(shù)應(yīng)服務(wù)于人類，同時(shí)尊重信息提供者的意愿，并維護(hù)其隱私權(quán)；

2、網(wǎng)站有義務(wù)保護(hù)其使用者的個(gè)人信息和隱私不被侵犯。

功能

Robots協(xié)議用來告知搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取；可以屏蔽一些網(wǎng)站中比較大的文件，如：圖片，音樂，視頻等，節(jié)省服務(wù)器帶寬；可以屏蔽站點(diǎn)的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容；設(shè)置網(wǎng)站地圖連接，方便引導(dǎo)蜘蛛爬取頁面。

文件寫法

User-agent: * 這里的*代表的所有的搜索引擎種類，*是一個(gè)通配符

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號(hào) (?) 的網(wǎng)址

Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。

Allow: /cgi-bin/　這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄

Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片

Sitemap: 網(wǎng)站地圖告訴爬蟲這個(gè)頁面是網(wǎng)站地圖

文件用法

例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

User-agent: *

Disallow: /

實(shí)例分析：淘寶網(wǎng)的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很顯然淘寶不允許百度的機(jī)器人訪問其網(wǎng)站下其所有的目錄。

例2. 允許所有的robot訪問 (或者也可以建一個(gè)空文件 “/robots.txt” file)

User-agent: *

Allow:　/

例3. 禁止某個(gè)搜索引擎的訪問

User-agent: BadBot

Disallow: /

例4. 允許某個(gè)搜索引擎的訪問

User-agent: Baiduspider

allow:/

例5.一個(gè)簡單例子

在這個(gè)例子中，該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問做了限制，即搜索引擎不會(huì)訪問這三個(gè)目錄。

需要注意的是對(duì)每一個(gè)目錄必須分開聲明，而不要寫成 “Disallow: /cgi-bin/ /tmp/”。

User-agent:后的*具有特殊的含義，代表“any robot”，所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現(xiàn)。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

Robot特殊參數(shù)：

允許 Googlebot：

如果您要攔截除Googlebot以外的所有漫游器不能訪問您的網(wǎng)頁，可以使用下列語法：

User-agent:

Disallow: /

User-agent: Googlebot

Disallow:

Googlebot 跟隨指向它自己的行，而不是指向所有漫游器的行。

“Allow”擴(kuò)展名：

Googlebot 可識(shí)別稱為“Allow”的 robots.txt 標(biāo)準(zhǔn)擴(kuò)展名。其他搜索引擎的漫游器可能無法識(shí)別此擴(kuò)展名，因此請使用您感興趣的其他搜索引擎進(jìn)行查找。“Allow”行的作用原理完全與“Disallow”行一樣。只需列出您要允許的目錄或頁面即可。

您也可以同時(shí)使用“Disallow”和“Allow”。例如，要攔截子目錄中某個(gè)頁面之外的其他所有頁面，可以使用下列條目：

User-agent: Googlebot

Allow: /folder1/myfile.html

Disallow: /folder1/

這些條目將攔截 folder1 目錄內(nèi)除 myfile.html 之外的所有頁面。

如果您要攔截 Googlebot 并允許 Google 的另一個(gè)漫游器（如 Googlebot-Mobile），可使用”Allow”規(guī)則允許該漫游器的訪問。例如：

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Allow:

使用 * 號(hào)匹配字符序列：

您可使用星號(hào) (*) 來匹配字符序列。例如，要攔截對(duì)所有以 private 開頭的子目錄的訪問，可使用下列條目：　User-Agent: Googlebot

Disallow: /private*/

要攔截對(duì)所有包含問號(hào) (?) 的網(wǎng)址的訪問，可使用下列條目：

User-agent: *

Disallow: /*?*

使用 $ 匹配網(wǎng)址的結(jié)束字符

您可使用 $字符指定與網(wǎng)址的結(jié)束字符進(jìn)行匹配。例如，要攔截以 .asp 結(jié)尾的網(wǎng)址，可使用下列條目：　User-agent: Googlebot

Disallow: /*.asp$

您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 表示一個(gè)會(huì)話 ID，您可排除所有包含該 ID 的網(wǎng)址，確保 Googlebot 不會(huì)抓取重復(fù)的網(wǎng)頁。但是，以 ? 結(jié)尾的網(wǎng)址可能是您要包含的網(wǎng)頁版本。在此情況下，可對(duì) robots.txt 文件進(jìn)行如下設(shè)置：

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: / *?

一行將攔截包含 ? 的網(wǎng)址（具體而言，它將攔截所有以您的域名開頭、后接任意字符串，然后是問號(hào) (?)，而后又是任意字符串的網(wǎng)址）。

Allow: /*?$ 一行將允許包含任何以 ? 結(jié)尾的網(wǎng)址（具體而言，它將允許包含所有以您的域名開頭、后接任意字符串，然后是問號(hào) (?)，問號(hào)之后沒有任何字符的網(wǎng)址）。

盡管robots.txt已經(jīng)存在很多年了，但是各大搜索引擎對(duì)它的解讀都有細(xì)微差別。Google與百度都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件，建議您在這兩個(gè)工具中都進(jìn)行測試，因?yàn)檫@兩者的解析實(shí)現(xiàn)確實(shí)有細(xì)微差別^[1] 。

其它屬性

1. Robot-version: 用來指定robot協(xié)議的版本號(hào)

例子: Robot-version: Version 2.0

2.Crawl-delay：雅虎YST一個(gè)特定的擴(kuò)展名，可以通過它對(duì)我們的抓取程序設(shè)定一個(gè)較低的抓取請求頻率。您可以加入Crawl-delay:xx指示，其中，“XX”是指在crawler程序兩次進(jìn)入站點(diǎn)時(shí)，以秒為單位的最低延時(shí)。

3. Visit-time:只有在visit-time指定的時(shí)間段里,robot才可以訪問指定的URL,否則不可訪問.

例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問

4. Request-rate: 用來限制URL的讀取頻率

例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鐘40次的頻率進(jìn)行訪問

Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鐘12次的頻率進(jìn)行訪問

標(biāo)簽

Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問情況，而Robots Meta標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽（如使用的語言、頁面的描述、關(guān)鍵詞等）一樣，Robots Meta標(biāo)簽也是放在頁面中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。

Robots Meta標(biāo)簽中沒有大小寫之分，name=”Robots”表示所有的搜索引擎，可以針對(duì)某個(gè)具體搜索引擎寫為name=”BaiduSpider”。content部分有四個(gè)指令選項(xiàng)：index、noindex、follow、nofollow，指令間以“,”分隔。

index指令告訴搜索機(jī)器人抓取該頁面；

follow指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去；

Robots Meta標(biāo)簽的缺省值是index和follow，只有inktomi除外，對(duì)于它，缺省值是index、nofollow。

注意事項(xiàng)

上述的robots.txt和Robots Meta標(biāo)簽限制搜索引擎機(jī)器人（ROBOTS）抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則，需要搜索引擎機(jī)器人的配合才行，并不是每個(gè)ROBOTS都遵守的。目前看來，絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則，而對(duì)于Robots　META標(biāo)簽，支持的并不多，但是正在逐漸增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE還增加了一個(gè)指令“archive”，可以限制GOOGLE是否保留網(wǎng)頁快照。

位置

robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。舉例來說，當(dāng)spider訪問一個(gè)網(wǎng)站時(shí)，首先會(huì)檢查該網(wǎng)站中是否存在robots.txt這個(gè)文件，如果 Spider找到這個(gè)文件，它就會(huì)根據(jù)這個(gè)文件的內(nèi)容，來確定它訪問權(quán)限的范圍。

wordpress的robots位置

沒有在wordpress網(wǎng)站根節(jié)目上傳過robots.txt,當(dāng)搜尋引擎和用戶拜訪某個(gè)文件時(shí)，wordpress程序會(huì)主動(dòng)生成一個(gè)robots.txt給搜尋引擎和用戶;若是我們上傳編寫的robots.txt到網(wǎng)站根節(jié)目，用戶和搜尋引擎蛛蛛拜訪的就是我們上傳的文件，wordpress就不會(huì)再產(chǎn)生那個(gè)文件了。只有服務(wù)器找不到robots的時(shí)候wordpress才會(huì)生成這個(gè)文件。

產(chǎn)生

robots.txt并不是某一個(gè)公司制定的，而是早在20世紀(jì)93、94年就早已出現(xiàn)，當(dāng)時(shí)還沒有Google。真實(shí)Robots協(xié)議的起源，是在互聯(lián)網(wǎng)從業(yè)人員的公開郵件組里面討論并且誕生的。即便是今天，互聯(lián)網(wǎng)領(lǐng)域的相關(guān)問題也仍然是在一些專門的郵件組中討論，并產(chǎn)生（主要是在美國）。

1994年6月30日，在經(jīng)過搜索引擎人員以及被搜索引擎抓取的網(wǎng)站站長共同討論后，正式發(fā)布了一份行業(yè)規(guī)范，即robots.txt協(xié)議。在此之前，相關(guān)人員一直在起草這份文檔，并在世界互聯(lián)網(wǎng)技術(shù)郵件組發(fā)布后，這一協(xié)議被幾乎所有的搜索引擎采用，包括最早的altavista，infoseek，后來的google，bing，以及中國的百度，搜搜，搜狗等公司也相繼采用并嚴(yán)格遵循。

Robot，又稱Spider，是搜索引擎自動(dòng)獲取網(wǎng)頁信息的電腦程序的通稱。Robots協(xié)議的核心思想就是要求Robot程序不要去檢索那些站長們不希望被直接搜索到的內(nèi)容。將約束Robot程序的具體方法規(guī)范成格式代碼，就成了Robots協(xié)議。一般來說，網(wǎng)站是通過Robots.txt文件來實(shí)現(xiàn)Robots協(xié)議。

自有搜索引擎之日起，Robots協(xié)議已是一種目前為止最有效的方式，用自律維持著網(wǎng)站與搜索引擎之間的平衡，讓兩者之間的利益不致過度傾斜。它就像一個(gè)鐘擺，讓互聯(lián)網(wǎng)上的搜索與被搜索和諧相處。

維基百科上描述的robots協(xié)議的最原始起源

影響

Robots協(xié)議是網(wǎng)站出于安全和隱私考慮，防止搜索引擎抓取敏感信息而設(shè)置的。搜索引擎的原理是通過一種爬蟲spider程序，自動(dòng)搜集互聯(lián)網(wǎng)上的網(wǎng)頁并獲取相關(guān)信息。而鑒于網(wǎng)絡(luò)安全與隱私的考慮，每個(gè)網(wǎng)站都會(huì)設(shè)置自己的Robots協(xié)議，來明示搜索引擎，哪些內(nèi)容是愿意和允許被搜索引擎收錄的，哪些則不允許。搜索引擎則會(huì)按照Robots協(xié)議給予的權(quán)限進(jìn)行抓取。

Robots協(xié)議代表了一種契約精神，互聯(lián)網(wǎng)企業(yè)只有遵守這一規(guī)則，才能保證網(wǎng)站及用戶的隱私數(shù)據(jù)不被侵犯。違背Robots協(xié)議將帶來巨大安全隱憂——此前，曾經(jīng)發(fā)生過這樣一個(gè)真實(shí)的案例：國內(nèi)某公司員工郭某給別人發(fā)了封求職的電子郵件，該Email存儲(chǔ)在某郵件服務(wù)公司的服務(wù)器上。因?yàn)樵摼W(wǎng)站沒有設(shè)置robots協(xié)議，導(dǎo)致該Email被搜索引擎抓取并被網(wǎng)民搜索到，為郭某的工作生活帶來極大困擾。

如今，在中國國內(nèi)互聯(lián)網(wǎng)行業(yè)，正規(guī)的大型企業(yè)也都將Robots協(xié)議當(dāng)做一項(xiàng)行業(yè)標(biāo)準(zhǔn)，國內(nèi)使用Robots協(xié)議最典型的案例，就是淘寶網(wǎng)拒絕百度搜索、京東拒絕一淘搜索。不過，絕大多數(shù)中小網(wǎng)站都需要依靠搜索引擎來增加流量，因此通常并不排斥搜索引擎，也很少使用Robots協(xié)議。

北京市漢卓律師事務(wù)所首席律師趙虎表示，Robots協(xié)議是維護(hù)互聯(lián)網(wǎng)世界隱私安全的重要規(guī)則。如果這種規(guī)則被破壞，對(duì)整個(gè)行業(yè)就是滅頂之災(zāi)。

搜索引擎

百度對(duì)robots.txt是有反應(yīng)的，但比較慢，在減少禁止目錄抓取的同時(shí)也減少了正常目錄的抓取。

原因應(yīng)該是入口減少了，正常目錄收錄需要后面再慢慢增加。

Google對(duì)robots.txt反應(yīng)很到位，禁止目錄馬上消失了，部分正常目錄收錄馬上上升了。/comment/目錄收錄也下降了，還是受到了一些老目標(biāo)減少的影響。

搜狗抓取呈現(xiàn)普遍增加的均勢，部分禁止目錄收錄下降了。

總結(jié)一下：Google似乎最懂站長的意思，百度等其它搜索引擎只是被動(dòng)的受入口數(shù)量影響了。

淘寶封殺

2008年9月8日，淘寶網(wǎng)宣布封殺百度爬蟲，百度忍痛遵守爬蟲協(xié)議。因?yàn)橐坏┢茐膮f(xié)議，用戶的隱私和利益就無法得到保障，搜索網(wǎng)站就談不到人性關(guān)懷。

京東封殺

2011年10月25日，京東商城正式將一淘網(wǎng)的搜索爬蟲屏蔽，以防止一淘網(wǎng)對(duì)其的內(nèi)容抓取。

違反事例

BE違規(guī)抓取eBay

在12年前，美國加州北部的聯(lián)邦地方法院就在著名的eBayVS. Bidder's Edge案中（NO.C-99-21200RMW,2000 U.S Dist. LEXI 7282），引用robots協(xié)議對(duì)案件進(jìn)行裁定。 Bidder's Edge（簡稱BE）成立于1997年，是專門提供拍賣信息的聚合網(wǎng)站。12年前，BE利用“蜘蛛”抓取來自eBay等各個(gè)大型拍賣網(wǎng)站的商品信息，放在自己的網(wǎng)站上供用戶瀏覽，并獲得可觀的網(wǎng)站流量。

對(duì)于eBay來說，來自BE蜘蛛每天超過十萬次的訪問，給自己的服務(wù)器帶來了巨大的壓力。而雖然eBay早已設(shè)置了robots協(xié)議禁止BE蜘蛛的抓取，但BE卻無視這個(gè)要求——原因很簡單，據(jù)估算，BE網(wǎng)站69%的拍賣信息都來自eBay, 如果停止抓取eBay內(nèi)容，這意味著BE將損失至少三分之一的用戶。

數(shù)次溝通交涉未果后，2000年2月，忍無可忍的eBay終于一紙?jiān)V狀，將BE告上聯(lián)邦法庭，要求禁止BE的違規(guī)抓取行為。3個(gè)月后，受理此案的美國聯(lián)邦法官Ronald M. Whyte在經(jīng)過多方調(diào)查取證后做出裁定，認(rèn)定BE侵權(quán)成立，禁止了BE在未經(jīng)eBay允許的情況下，通過任何自動(dòng)查詢程序、網(wǎng)絡(luò)蜘蛛等設(shè)置抓取eBay的拍賣內(nèi)容。

在當(dāng)時(shí)的庭審中，雙方爭議的焦點(diǎn)主要集中在“網(wǎng)站是否有權(quán)設(shè)置robots協(xié)議屏蔽其他網(wǎng)站蜘蛛的抓取”。被告BE認(rèn)為，eBay的網(wǎng)站內(nèi)容屬于網(wǎng)民自創(chuàng)，因此是公共資源，eBay無權(quán)設(shè)立robots協(xié)議進(jìn)行限制。然而，法院對(duì)這一說辭卻并不認(rèn)同。在法官看來：“eBay 的網(wǎng)站內(nèi)容屬于私有財(cái)產(chǎn)，eBay有權(quán)通過robots協(xié)議對(duì)其進(jìn)行限制。”違規(guī)抓取的行為無異于“對(duì)于動(dòng)產(chǎn)的非法侵入”。

也正是出于這一判斷，即使當(dāng)年BE還只是搜索了eBay計(jì)算機(jī)系統(tǒng)里的一小部分?jǐn)?shù)據(jù)，其違反robots協(xié)議的抓取行為，仍然被判為侵犯了eBay將別人排除在其計(jì)算機(jī)系統(tǒng)以外的基本財(cái)產(chǎn)權(quán)。

作為美國歷史上第一個(gè)保護(hù)互聯(lián)網(wǎng)信息內(nèi)容的法律裁定，eBay與BE的這起糾紛，成為網(wǎng)絡(luò)侵權(quán)案的標(biāo)志性案例，并在當(dāng)時(shí)引發(fā)了美國互聯(lián)網(wǎng)產(chǎn)業(yè)乃至社會(huì)的廣泛討論。SearchEngine Watch的知名專欄作家DannySullivan 曾專門在文章中指出，robots協(xié)議是規(guī)范搜索引擎爬蟲行為的極少數(shù)約定之一，理應(yīng)遵守，它不僅僅讓整個(gè)互聯(lián)網(wǎng)的開放性變成可能，最終也讓整個(gè)互聯(lián)網(wǎng)用戶受益。

360搜索無視r(shí)obots協(xié)議

2012年8月，360綜合搜索被指違反robots協(xié)議：

360甘冒行業(yè)道德風(fēng)險(xiǎn) 撕毀Robots自律協(xié)議

2012年8月29日，上線不到十日即輕松登上國內(nèi)第二大搜索引擎寶座的奇虎360搜索遭遇滑鐵盧，在百度一項(xiàng)打擊違規(guī)抓取和匿名訪問的措施上線后，360搜索通過山寨加綁架用戶的模式被徹底揭穿，這個(gè)故事也正是對(duì)所謂“搜索引擎技術(shù)無用論”的當(dāng)頭棒喝。

“360綜合搜索已超出Robots協(xié)議的‘底線’，不僅未經(jīng)授權(quán)大量抓取百度、google內(nèi)容，還記錄國內(nèi)知名網(wǎng)游的后臺(tái)訂單、優(yōu)惠碼等，甚至一些用戶的電子郵箱、帳號(hào)、密碼也被360通過瀏覽器悄然記錄在案”。2012年8月28日業(yè)內(nèi)一位有10年搜索工程師經(jīng)驗(yàn)的專業(yè)人士表示。^[2]

奇虎360搜索8月16 日上線，已連續(xù)遭到業(yè)界“違規(guī)”的警告。不僅UI設(shè)計(jì)，搜索結(jié)果直接剽竊、篡改百度、google等搜索引擎，還不顧國際通行的Robots協(xié)議，抓取百度、google等搜索引擎的內(nèi)容，很多商業(yè)網(wǎng)站和個(gè)人信息的私密內(nèi)容也被抓取泄密。據(jù)悉，這種匿名訪問和違規(guī)抓取其他網(wǎng)站內(nèi)容的行為，不僅嚴(yán)重違反了行業(yè)底線，也傷害到了用戶的體驗(yàn)。在國外，這種行為甚至?xí)艿椒煞矫娴闹撇谩！斑@已經(jīng)嚴(yán)重觸碰了Robots協(xié)議的底線!這些讓如百度這樣踏踏實(shí)實(shí)做技術(shù)的公司進(jìn)行反擊行動(dòng)，是必然的!”

這位搜索工程師告訴記者，所謂Robots協(xié)議，通俗的講就是網(wǎng)站會(huì)通過robots.txt協(xié)議來自主控制是否愿意被搜索引擎收錄，或者指定搜索引擎只收錄指定的內(nèi)容。而搜索引擎會(huì)按照每個(gè)網(wǎng)站主給與自己的權(quán)限來進(jìn)行抓取。這就好比，一個(gè)正常的人去到別人家里，需要先敲門，得到許可以后才能進(jìn)入客廳。除非有主人的進(jìn)一步許可和邀請，否則你不能擅自進(jìn)入內(nèi)室，或者在別人家里四處溜達(dá)。當(dāng)然，強(qiáng)盜或者小偷例外。^[3]

對(duì)于奇虎360綜合搜索被爆出無視國際通行的robots協(xié)議，抓取百度、Google等搜索引擎內(nèi)容，導(dǎo)致眾多網(wǎng)站出于安全和隱私考慮不允許搜索引擎抓取的內(nèi)網(wǎng)信息被泄露一事，資深互聯(lián)網(wǎng)觀察家洪波指出，做搜索就要遵守搜索行業(yè)公認(rèn)的游戲規(guī)則，無視規(guī)則，肆意違反規(guī)則才是真正的不正當(dāng)競爭，這種行為不能從法律和政府監(jiān)管上及時(shí)制止，將引發(fā)行業(yè)大亂。

百度并沒有禁止所有爬蟲抓取問答、知道和貼吧的內(nèi)容，百度只是禁止了不規(guī)矩的、存在潛在安全風(fēng)險(xiǎn)的爬蟲，這恰是保護(hù)市場秩序，保護(hù)用戶隱私的合理舉措。2008年淘寶也曾禁止百度爬蟲，而百度則嚴(yán)格遵守robots協(xié)議，停止抓取淘寶網(wǎng)內(nèi)容，并沒有以淘寶不正當(dāng)競爭為借口違反robots協(xié)議。

中國工程院院士高文：Robots協(xié)議是搜索引擎在抓取網(wǎng)站信息時(shí)要遵守的一個(gè)規(guī)則，是國際互聯(lián)網(wǎng)界通行的道德規(guī)范。網(wǎng)站主人通過Robots協(xié)議明示自動(dòng)抓取程序，服務(wù)器上什么內(nèi)容可以被抓取，什么內(nèi)容不可以被抓取。這是保證互聯(lián)網(wǎng)行業(yè)健康發(fā)展的自律準(zhǔn)則，盡管不是強(qiáng)制命令，但業(yè)界都應(yīng)該遵守。中國互聯(lián)網(wǎng)企業(yè)要想在國際舞臺(tái)受到更多關(guān)注、得到更大的發(fā)展，沒有理由不遵守這個(gè)游戲規(guī)則。如果不遵守，不僅損害了違規(guī)企業(yè)自身的形象，也損害了中國互聯(lián)網(wǎng)行業(yè)的整體聲譽(yù)，得不償失。

浙江大學(xué)計(jì)算機(jī)學(xué)院院長莊越挺：互聯(lián)網(wǎng)網(wǎng)站頁面，如同廣闊農(nóng)村中的一個(gè)菜園，各有其主。一般而言，訪客進(jìn)去逛逛無可厚非，但是如果主人在邊界立下界碑：未經(jīng)允許不得入內(nèi)，這就意味著主人的意愿成為外界是否獲準(zhǔn)入園參觀的標(biāo)準(zhǔn)。Robots協(xié)議就是這樣一塊界碑，它雖然不具法律效應(yīng)，但是人們都普遍遵循。未經(jīng)允許入園就參觀不僅違反了游戲規(guī)則，也有違道德標(biāo)準(zhǔn)。同樣的道理，違反Robots協(xié)議，等同于違背了搜索引擎的行業(yè)規(guī)范，以這種方式獲取資源是一種不道德的競爭。

哈爾濱工業(yè)大學(xué)教授劉挺：Robots協(xié)議是互聯(lián)網(wǎng)中網(wǎng)站為搜索引擎所制定的內(nèi)容抓取規(guī)則，體現(xiàn)了業(yè)界同行之間的相互信任。如果不遵循Robots協(xié)議，將會(huì)破其業(yè)界信任，使得網(wǎng)站的內(nèi)容不愿意被抓取的內(nèi)容被搜索引擎索引，最終傷害用戶的利益。而清華大學(xué)計(jì)算機(jī)系教授馬少平則指出，如果不遵守Robots協(xié)議，肆意抓取網(wǎng)站的內(nèi)容，網(wǎng)站的信息被任意泄漏，將對(duì)互聯(lián)網(wǎng)的良性發(fā)展產(chǎn)生巨大的破壞作用。

百度起訴360

百度訴奇虎360違反“Robots協(xié)議”抓取、復(fù)制其網(wǎng)站內(nèi)容侵權(quán)一案，2013年10月16日上午在北京市第一中級(jí)人民法院開庭審理。百度方面認(rèn)為，360搜索在未獲得百度公司允許的情況下，違反業(yè)內(nèi)公認(rèn)的Robots協(xié)議，抓取百度旗下百度知道、百度百科、百度貼吧等網(wǎng)站的內(nèi)容，已經(jīng)構(gòu)成了不正當(dāng)競爭，并向奇虎索賠1億元。

百度公關(guān)部郭彪向媒體表示，Robots協(xié)議是網(wǎng)站信息和網(wǎng)民隱私保護(hù)的國際通行規(guī)范之一，理應(yīng)得到全球互聯(lián)網(wǎng)公司的共同遵守。不尊重Robots協(xié)議將可能導(dǎo)致網(wǎng)民隱私大規(guī)模泄露。

郭彪表示，更嚴(yán)重的是，奇虎360還利用360瀏覽器等客戶端，強(qiáng)行抓取網(wǎng)民的瀏覽數(shù)據(jù)和信息到搜索服務(wù)器，完全無視Robots協(xié)議。這一做法目前已經(jīng)導(dǎo)致大量企業(yè)內(nèi)網(wǎng)信息被泄露。2012年年底，百度工程師通過一個(gè)名為“鬼節(jié)捉鬼”的測試，證明了360瀏覽器存在私自上傳“孤島頁面”等隱私內(nèi)容到360搜索的行為。

360方面則認(rèn)為，360搜索索引這些內(nèi)容頁面并不涉嫌侵犯百度的權(quán)益，實(shí)際上還為百度帶來了大量的用戶和流量，百度應(yīng)該感謝360。 ^[2]

上一篇：索引庫 下一篇：沙盒效應(yīng)

評(píng)論(0人參與，0條評(píng)論)

發(fā)布評(píng)論

詞條統(tǒng)計(jì)

瀏覽次數(shù)：1510次

編輯次數(shù)：0次歷史版本

最近更新：2017-04-23

創(chuàng)建者：聚擎

簡介

原則

功能

文件寫法

文件用法

其它屬性

標(biāo)簽

注意事項(xiàng)

位置

產(chǎn)生

影響

搜索引擎

淘寶封殺

京東封殺

違反事例

BE違規(guī)抓取eBay

360搜索無視r(shí)obots協(xié)議

百度起訴360

猜你喜歡

評(píng)論(0人參與，0條評(píng)論)

最新評(píng)論

詞條統(tǒng)計(jì)

相關(guān)詞條

相關(guān)問答

相關(guān)百科

相關(guān)資訊