<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    淺析爬蟲的不重復(fù)抓取策略

    作者:冰河世紀(jì) 瀏覽:107 發(fā)布時(shí)間:2017-07-05
    分享 評論 0

        不重復(fù)抓取?有很多初學(xué)者可能會覺得。爬蟲不是有深度優(yōu)先和廣度優(yōu)先兩種抓取策略嗎?你這怎么又多出來一個不重復(fù)抓取策略呢?其實(shí)我這幾天有不止一次聽到了有人說要在不同頁面增加同一頁面鏈接,才能保證收錄。我想真能保證嗎?涉及收錄問題的不止是抓沒抓吧?也從而延伸出今天的這篇文章,不重復(fù)抓取策略,以說明在一定時(shí)間內(nèi)的爬蟲抓取是有這樣規(guī)則的,當(dāng)然還有很多其他的規(guī)則策略,以后有機(jī)會再說,例如優(yōu)先抓取策略、網(wǎng)頁重訪策略等等。


        回歸正題,不重復(fù)抓取,就需要去判斷是否重復(fù)。那么就需要記住之前的抓取行為,我們舉一個簡單的例子。你在我的QQ群里看到我發(fā)了一個URL鏈接,然后你是先看到了我發(fā)的這個鏈接,然后才會點(diǎn)擊并在瀏覽器打開看到具體內(nèi)容。這個等于爬蟲看到了后才會進(jìn)行抓取。那怎么記錄呢?


        假設(shè)這是一個網(wǎng)頁上所有的鏈接,當(dāng)爬蟲爬取這個頁面的鏈接時(shí)就全部發(fā)現(xiàn)了。當(dāng)然爬取(理解為發(fā)現(xiàn)鏈接)與抓取(理解為抓取網(wǎng)頁)是同步進(jìn)行的。一個發(fā)現(xiàn)了就告訴了另外一個,然后前面的繼續(xù)爬,后面的繼續(xù)抓。抓取完了就存起來,并標(biāo)記上,如上圖,我們發(fā)現(xiàn)第2條記錄和第6條記錄是重復(fù)的。那么當(dāng)爬蟲抓取第二條后,又爬取到了第6條就發(fā)現(xiàn)這條信息已經(jīng)抓取過了,那么就不再抓取了。爬蟲不是盡可能抓更多的東西嗎?為什么還要判斷重復(fù)的呢?


        其實(shí),我們可以想一下。互聯(lián)網(wǎng)有多少網(wǎng)站又有多少網(wǎng)頁呢?趙彥剛是真沒查證過,但這個量級應(yīng)該大的驚人了。而本身搜索引擎的爬取和抓取都是需要執(zhí)行一段代碼或一個函數(shù)。執(zhí)行一次就代表著要耗費(fèi)一丁點(diǎn)資源。如果抓取的重復(fù)量級達(dá)到百億級別又會讓爬蟲做多少的無用功?耗費(fèi)搜索引擎多大的成本?這成本就是錢,降低成本就是減少支出。當(dāng)然不重復(fù)抓取不光體現(xiàn)在這里,但這個是最顯而易見的。你要知道的就是類似于內(nèi)容詳情頁的熱門推薦、相關(guān)文章、隨機(jī)推薦、最新文章的重復(fù)度有多大?是不是所有頁面都一樣?如果都一樣,那么可以適當(dāng)調(diào)整下,在不影響網(wǎng)站本身的用戶體驗(yàn)前提下,去適當(dāng)做一些調(diào)整。畢竟網(wǎng)站是給用戶看的,搜索引擎只是獲取流量的一個重要入口,一種營銷較為重要的途徑!


    一本久久伊人热热精品中文| 免费观看四虎精品国产永久| 久久久久无码精品国产| 中文成人无码精品久久久不卡| 七次郎在线视频观看精品| 日韩精品在线免费观看| 国产精品冒白浆免费视频| 国精品产区WNW2544| 精品乱码一卡2卡三卡4卡网| 亚洲精品美女久久久久9999| 99国产精品免费观看视频| 久久精品视频一区| 华人在线精品免费观看| 中文字幕无码精品三级在线电影| 精品人妻少妇一区二区| 精品久久人人妻人人做精品| 国产精品成人观看视频网站| 国产精品热久久毛片| 国产va免费精品| 国产精品高清2021在线| 国产精品免费视频观看拍拍 | 国产精品一区二区久久国产| 中国国产成人精品久久| 成人国产精品免费视频| 国产在线观看一区精品| 中文字幕日韩专区精品系列| 久久久久这里只有精品| 91国在线啪精品一区| 99精品在线播放| 亚洲精品乱码久久久久久| 亚洲日韩一页精品发布| 一本久久a久久精品亚洲| 亚洲精品国产成人片| 久热这里只精品99re8久| 久热中文字幕在线精品首页| 午夜天堂精品久久久久| 久久精品国产网红主播| 久久亚洲精品无码aⅴ大香| 亚洲国产精品专区| 97久久国产亚洲精品超碰热| 亚洲日韩精品无码AV海量|