搜索引擎蜘蛛的三個特性




1、抓取網頁覆蓋率
對于現在的搜索引擎來說,還沒有哪個搜索引擎能抓取互聯網上出現的所有網頁,所有搜索引擎只能索引互聯網的一部分而已,這里就有一個概念——“暗網”,暗網是指目前搜索引擎蜘蛛按照常規(guī)方式很難抓取到的互聯網頁面,蜘蛛是依賴頁面中的鏈接發(fā)現新的頁面,進而抓取索引,但是很多頁面內容是以數據庫方式存儲的。這樣蜘蛛很難或無法抓取這些信息,結果就是用戶也無法在搜索引擎搜索得到這些信息。
2、抓取網頁的重要性
蜘蛛抓取了很多內容,也及時更新了,但如果抓取的都是一些低質量內容,那肯定是不行的。盡管要多抓勤抓,但是每個網頁重要性差異很大,這就是矛盾的地方,搜索引擎蜘蛛不僅要干得多、干得快、還要干得好。所以必然會優(yōu)先照顧部分能經常提供高質量內容的網站,特別是定時定量更新的,這樣才能最大程度上保證優(yōu)質內容不被漏掉,這也可以說是沒辦法的辦法。如果搜索引擎蜘蛛抓回的網頁大都是比較重要的網頁,則可說其在抓取網頁重要性方面做得很好。
3、抓取網頁時效性
說到用戶的搜索體驗,網頁的時效性相對覆蓋率句更加直觀了,比如你在搜索結果搜索到了一個結果,當你點擊后頁面是不存在的,作何感想搜索引擎是在努力避免這些的,所以蜘蛛抓取網頁時效性同樣是一個重要考核點。互聯網信息比較多,蜘蛛抓取一輪需要較長的時間周期,這個時間內之前建立索引的很多網頁可能已經發(fā)生變化或者被刪除,這就導致搜索結果中有一部分是過期的數據。