網(wǎng)頁抓取
作者:重慶小面
瀏覽:846次
發(fā)布時間:2017-06-20




這里說的網(wǎng)頁抓取主要指搜索引擎對網(wǎng)頁的抓取,搜索引擎蜘蛛爬行到網(wǎng)頁讀取網(wǎng)頁內(nèi)容下載存儲到搜索引擎數(shù)據(jù)庫額過程就叫網(wǎng)頁抓取,過程有三個方面:
1、搜集新出現(xiàn)的網(wǎng)頁;
2、搜集那些在上次搜集后有改變的網(wǎng)頁;
3、發(fā)現(xiàn)自從上次搜集后已經(jīng)不再存了的網(wǎng)頁,并從庫中刪除。