搜隨引擎爬行過程簡介
作者:dengying
瀏覽:1969次
發布時間:2015-04-28




1、搜索引擎程序是通過網頁之間的鏈接,不分晝夜的爬行來獲取信息,收錄標準主要由URL的權重、網站規模大小等因素決定;
2、搜索引擎進入服務器時,第一時間查看robots.txt(控制搜索引擎收錄的標準)文件,如果robots.txt文件不存在,則返回404錯誤代碼,但依然會繼續爬行,如果定義了某些規則,則遵守索引。
3、建議必須有一個robot .txt文件
搜索引擎抓取數據的方式
1、垂直抓取策略:指搜索引擎順著一條鏈接爬行,直到設定的任務完成。
思路如下:垂直抓取策略—A鏈接—A網頁鏈接—A網頁鏈接的鏈接 ,一直垂直抓取到最底。
2、平行抓取策略:指先把網頁山的鏈接全部抓取一次,然后接著從每條鏈接牌型。
總結:在實際應用中,這兩種策略會同時發生,抓取的深度和廣度取決于頁面的權重、結構和網站規模大小以及新鮮內容數量和頻率,當然這里面包含了很多的seo的策略。