如何讓spider再次抓取網頁




spider把網頁抓取到本地,該網頁被分析索引并參與了排名,并不意味著spider針對該網頁的工作已經結束了。現在互聯網網頁內容多是動態變化的,甚至有時網頁會被管理者刪除。搜索引擎所抓取到的本地頁面,可以看做是對已經抓取并說索引過的網頁做了一個鏡像,也就是說理論上搜索引擎應該保證,本地“鏡像”頁面和對應互聯網上的網頁內容實時一致。但是由于搜索引擎的spider資源有限,現階段做不到也沒有必要做到實時監測全部已索引網頁的所有變化。搜索引擎只需要為spider設置一個再次抓取和更新頁面的策略,以保證當部分頁面呈現到用戶面前時,搜索引擎的本地索引和該網頁當時的內容并沒有太大的差異就可以了,這部分頁面應該包含大部分網民所需要檢索的內容,并且也可以滿足絕大多數搜索用戶的搜索請求。
如上所述,在有限資源的情況下,搜索引擎首先要保證部分網頁索引的更新,這部分網頁擁有大部分用戶所需要的內容:也要保證所有索引頁面都有一個更新機制,在該網頁需要相應的新的內容索引時,spider要進行再次抓取并更新該網頁索引。站在spider的角度,一般會根據以下四個方面來確定對已索引網頁的再次抓取頻率:用戶體驗、歷史更新頻率、網頁類型和網頁權重。
1.用戶體驗
整個互聯網的網頁數量是巨大的,已被百度抓取并索引的中文網頁應該也是千億級別的了,但是用戶所需要的信息只有一小部分。當用戶在搜索引擎查詢后,不論返回結果有多少,大部分用戶都會在前三頁找到自己所需要的信息,很少有用戶會瀏覽第四頁或者更靠后的搜索結果。本著優先更新大部分用戶所需要內容的原則,所有用戶提交查詢結果的前幾頁,都是值得保證索引即時更新的。所以一般搜索引擎會收集所有用戶的搜索請求,然后統計所有搜索結果中用戶可能看到的網頁,繼而進行優先再次抓取和更新。理論上,這些網頁被搜索到的次數越多,再次被抓取到的頻率就會越高。
2.歷史更新頻率
搜索引擎會嘗試發現某一個網頁中內容的更新頻率,因為spider的再次抓取就是為了發現已經被索引網頁是否有變化,如果某個網頁持續沒有變化,可能搜索引擎就會降低對其抓取的頻率,甚至不再對其進行再次抓取。這個策略的實施是建立在搜索引擎已經發現網頁的更新頻率的基礎上的,所以理論上當spider發現一個新的url抓取并索引后,會很快進行二次抓取。如果沒有發現內容變動,就會降低抓取頻率,這樣慢慢地發現網頁的更新頻率,以調整到最佳的抓取頻率。同時spider注重的變化應該是網頁的主體內容部分,一般會忽略主體內容周圍的廣告模塊、導航模塊及推薦鏈接模塊的更新變動。
3.網頁類型
不同的網頁有不同的更新頻率。在同一個站點內網站首頁、目錄頁、專題頁和文章頁的更新頻率肯定是不同的。所以對同一站點內的網頁,spider對不同類型的網頁抓取頻率是不同的。首頁和目錄頁是spider經常光顧的頁面:根據專題頁面的時效性或者其他特征,spider可能會在某一時間段內進行頻繁抓取,時效性過期后就會降低對其的抓取頻率;對于文章頁,spider很有可能第一次來過之后就不再來了。雖然整個互聯網中網頁很多,但是網頁類型并不多,每個類型的網頁都會有自己的布局和更新規律,搜索引擎有足夠的能力發現網頁的類型并設置合理的再次抓取頻率。這也會方便spider對網頁更新頻率的判斷。
4.網頁權重
除了以上再次抓取策略外,網頁權重也是決定抓取頻率的重要因素。用戶體驗策略在一定程度上也反映了網頁權重的影響。在網頁類型相同、歷史更新頻率也差不多的情況下,肯定是權重越高的頁面被抓取的頻率越高。比如百度首頁、好123首頁、chinaz站長工具首頁和普通企業站首頁都可以簡單歸為網站首頁,并且前三個“首頁”長期都不會有什么更新,普通企業站首頁可能偶爾還會有更新,但是前三個“首頁”的百度快照一般都是最新的,而普通企業站的首頁快照可能是一周前甚至一個月前的。這就反映出了網頁權重在抓取頻率中的作用。
在搜索引擎spider的實際作用中,不會單獨使用某一種再次抓取策略,而是會綜合參考網頁的用戶體驗、更新頻率、網頁類型和網頁權重,并且對于不同類型的頁面,著重參考的更新內容主體也是不同的。比如,列表頁只有一篇新的文章進入可能就算更新了;文章頁主體內容沒有變,主體內容周圍的所有推薦鏈接、廣告、內容都變了,可能也不會算是有更新。
在SEO工作中為了提高某一網站的抓取頻率,一般會重點為該頁面的導入鏈接提高權重,努力加大該頁面的更新頻率。其實在用戶體驗和網頁類型方面也是有工作可做的,用標題和描述吸引點擊不僅可以提升排名,也能夠間接增加頁面被spider抓取的頻率;同時對于不同定位的關鍵詞可以使用不同的網頁類型(列表頁、專題頁、內容頁等),這在設計頁面內容和網站架構時就應該仔細地考慮,并且網頁類型這部分有很多工作值得做。比如,有不少網站把整站都做成了列表頁,全站沒有普通意義上的內容頁,內容頁主體內容下方或周圍也有大量和主題相關的文本內容,一般是類列表形式。不過這種手法有效時間不長,或者損害用戶體驗后會降低被抓取的頻率。不論怎樣,優秀的網站架構設計應該合理地利用spider抓取策略的各種特性。