屏蔽蜘蛛抓取的五個辦法




怎樣屏蔽蜘蛛的抓取,我們常用的辦法有兩個,一個是編輯robots.txt文件,另外一個是在不想被收錄的頁面頭部放置META NAME="ROBOTS"標簽。
所謂的robots.txt文件,是每一個搜索引擎到你的網站之后要尋找和訪問的第一個文件,robots.txt是你對搜索引擎制定的一個如何索引你的網站的規則。通過這個文件,搜索引擎就可以知道在你的網站中,哪些文件是可以被索引的,哪些文件是被拒絕索引的。
絕大多數站長都知道,網站能夠在搜索引擎里獲得很好的排名是非常重要的,于是很多站長竭盡討好搜索引擎之能事,恨不得把搜索引擎的蜘蛛當成皇上來看待,希望能夠獲得蜘蛛的賞識,從而提升網站的排名,可是事實上,即使把蜘蛛伺候好了,也不能夠獲得很好的排名,這是為什么呢?因為蜘蛛并沒有人類的情感,即時你把它當成皇上他也對你毫無憐憫,該怎樣就怎樣,所以在網站優化方面,并不是對蜘蛛越好優化效果就越好,而是要懂得取舍!要學會屏蔽一些蜘蛛的技巧!比如除了限制蜘蛛在ADMIN和DATA上的爬行,還可以在其他的目錄上適當的屏蔽蜘蛛,也是非常有好處的,下面就來分析幾種屏蔽蜘蛛的技巧!
一:圖片和模板目錄都可以進行屏蔽
因為目前很多站長都是在互聯網上找相同的圖片和套用現成的模板,這些模板和圖片已經在互聯網泛濫了,此時你還讓你的網站被蜘蛛再次爬行這些老掉牙的東西,自然會讓蜘蛛非常的反感,從而讓你的網站貼上模仿作弊的標簽,想要獲得搜索引擎的青睞反而是更加困難,所以IMAGES目錄通常可以屏蔽!
二:緩存目錄可以屏蔽,防止重復索引
蜘蛛是非常貪婪的,只要你給他喂食,它是不管真實還是虛幻都照單全收,比如網站的緩存目錄里面的內容,蜘蛛也會照樣來進行索引,這勢必和網站里面的內容出現了重復,如果出現重復的數量過多,那么百度的算法機制就會認為你的網站在作弊,從而甚至提升你網站的權重,給網站帶來極大的影響,通常每種建站程序的緩存目錄是不一樣的,要根據不同的建站程序來屏蔽相應的緩存目錄是很有必要的!
三:CSS目錄及部分RSS頁需要屏蔽
CSS目錄對于蜘蛛而言是完全無用的,抓取后反而會影響搜索引擎算法的判斷,所以可以通過ROBOTS.TXT文件來進行屏蔽,另外很多建站程序的RSS頁也是一種內容的重復,抓取后也會造成搜索引擎的誤判斷,這兩個方面的內容都需要屏蔽!這種屏蔽看起來是對蜘蛛的大不敬,實際上卻如良藥苦口利于病!忠言逆耳利于行!
四:如果有雙頁面,那么優先屏蔽動態頁面
一般而言,網站的靜態頁面是很容易被搜索引擎收錄,通常蜘蛛抓取和收錄是兩回事,網站除了靜態頁面之外,大部分網站還存在著動態的頁面,比如“www.XXXX/1.html這兩個指的是同一個頁面,如果不進行屏蔽的話,勢必造成兩個頁面同時被蜘蛛抓取,可是到了搜索引擎算法判斷的時候,因為發現了兩個一樣的頁面,就會認為你網站存在作弊的嫌疑,所以加大對你網站的考察力度,從而影響到網站的排名,所以正確的做法是優先屏蔽網站的動態頁面!
五:服務器屏蔽
許多空間商為了減少服務器負擔,故意屏蔽蜘蛛抓取,導致網站無法被搜索引擎收錄,在這里我們也可以設置利用服務器屏蔽搜索器的抓取。主要原理是分析網站日志,找到搜索引擎抓取的IP,然后對其IP進行屏蔽。但是這種方法并不是很實用,畢竟不能屏蔽單頁面和修改都不是很靈活。具體方法需要參考服務器設置。