前兩天人們注意到Google Adsense蜘蛛所抓取的網頁會出現在搜索結果中。Matt Cutts在他的博客里迅速的做出了回應,對這種現象做了進一步解釋。
簡單來說,Google在完成大爸爸數據中心升級后,各種蜘蛛抓取網頁的機制產生了變化。不是各個蜘蛛直接抓取網頁,而是由一個爬行緩存代理crawl caching proxy抓取網頁,然后不同的蜘蛛從這個緩存中獲取內容,從而節省了帶寬。
Matt Cutts的帖子比較完整的翻譯可以在幻滅和小添的博客里看到。
我要補充的是:第一:Matt Cutts特意指出,這個新的抓取機制不會讓你的網頁被抓取的更快,也不會對排名有任何影響。這個爬行緩存代理也不影響各個蜘蛛本來應該爬行的頻率和時間表。只不過各個蜘蛛不直接爬行網頁,而是從緩存中獲取。
第二:更引起我注意的是,Matt Cutts說這個爬行緩存代理是大爸爸更新之后才有的。因為運行的很順利,在其他人發現這種現象之前,Matt Cutts自己沒意識到這種新的機制已經運行了。這說明Matt Cutts并不能掌握所有各個部門的最新情況,那么還有什么是Matt Cutts也還不知道的呢?
第三:Matt Cutts講這個機制的目標是節省帶寬,而不是隱藏頁面(cloaked page)檢測。我覺得弦外之音是,利用同樣的技術,Google完全可以用其他的蜘蛛來檢測隱藏頁面。當然也可能是我過度敏感了。
另外,最近很多網站出現被收錄的頁面數目急劇下降的現象,我懷疑和這個新的頁面抓取方法造成的混亂有關。很顯然不是排名算法改變導致收錄的網頁數目下降,而是蜘蛛爬行的問題。
評論(0人參與,0條評論)
發布評論
最新評論