Robots協(xié)議-robots.txt




Robots協(xié)議-簡(jiǎn)介
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
robots.txt文件是一個(gè)文本文件,使用任何一個(gè)常見的文本編輯器,比如Windows系統(tǒng)自帶的Notepad,就可以創(chuàng)建和編輯它。robots.txt是一個(gè)協(xié)議,而不是一個(gè)命令。robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁(yè)面。百度官方建議,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。
如果其他網(wǎng)站鏈接了您robots.txt文件中設(shè)置的禁止收錄的網(wǎng)頁(yè),那么這些網(wǎng)頁(yè)仍然可能會(huì)出現(xiàn)在百度的搜索結(jié)果中,但您的網(wǎng)頁(yè)上的內(nèi)容不會(huì)被抓取、建入索引和顯示,百度搜索結(jié)果中展示的僅是其他網(wǎng)站對(duì)您相關(guān)網(wǎng)頁(yè)的描述。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,文件名必須全部小寫。