<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    搜索引擎網(wǎng)頁去重算法分析

    作者:山里的苦丁 瀏覽:124 發(fā)布時間:2017-07-14
    分享 評論 0

      相關(guān)統(tǒng)計數(shù)據(jù)表明:互聯(lián)網(wǎng)上近似重復(fù)的網(wǎng)頁的數(shù)量占網(wǎng)頁總數(shù)量的比例高達29%,完全相同的網(wǎng)頁大約占網(wǎng)頁總數(shù)量的22%.研究表明,在一個大型的信息采集系統(tǒng)中,30%的網(wǎng)頁是和另外70%的網(wǎng)頁完全重復(fù)或近似重復(fù)的。


      即:互聯(lián)網(wǎng)的網(wǎng)頁中相當高的比例的網(wǎng)頁內(nèi)容是近似相同或完全相同的!


      搜索爬蟲抓取會產(chǎn)生網(wǎng)頁重復(fù)的類型:


      1.多個URL地址指向同一網(wǎng)頁以及鏡像站點


      如:www.sina.com 和www.sina.com.cn


      指向同一個站點。


      2. 網(wǎng)頁內(nèi)容重復(fù)或近似重復(fù)


      如抄襲、轉(zhuǎn)摘的內(nèi)容,垃圾信息等


      網(wǎng)頁內(nèi)容近似重復(fù)檢測的兩種應(yīng)用場合:


      一:在用戶搜索階段


      目標是根據(jù)與用戶給定的查詢詞找到已有索引列表中近似重復(fù)的文檔,并排序輸出。


      二:爬蟲抓取發(fā)現(xiàn)階段


      對一個新的網(wǎng)頁,爬蟲程序通過網(wǎng)頁去重算法,最終決定是否對其索引。


      搜索引擎整體構(gòu)架


      近似重復(fù)網(wǎng)頁類型,根據(jù)文章內(nèi)容和網(wǎng)頁布局格式的組合分為4種形式:


      一:兩篇文檔在內(nèi)容和布局格式上毫無區(qū)別,則這種重復(fù)稱為完全重復(fù)頁面。


      二:兩篇文檔內(nèi)容相同,但布局格式不同,則這種重復(fù)稱為內(nèi)容重復(fù)頁面。


      三:兩篇文檔有部分重要的內(nèi)容相同,并且布局格式相同,則這種重復(fù)稱為布局重復(fù)頁面。


      四:兩篇文檔有部分重要內(nèi)容相同,但布局格式不同,則這種重復(fù)稱為部分重復(fù)頁面。


      近似重復(fù)網(wǎng)頁舉例


      重復(fù)網(wǎng)頁對搜索引擎的不利影響:


      正常情況下,非常相似的網(wǎng)頁內(nèi)容不能或只能給用戶提供少量的新信息,但在對爬蟲進行抓取、索引和用戶搜索 會消耗大量的服務(wù)器資源。


      重復(fù)網(wǎng)頁對搜索引擎的好處:


      如果某個網(wǎng)頁重復(fù)性很高,往往是其內(nèi)容比較比較受歡迎的一種體現(xiàn),也預(yù)示著該網(wǎng)頁相對比較重要。應(yīng)予以優(yōu)先收錄。當用戶搜索時,在輸出結(jié)果排序時,也應(yīng)給與較高的權(quán)重。


      重復(fù)文檔的處理方式:


      1.刪除


      2.將重復(fù)文檔分組


      搜索引擎近似重復(fù)檢測流程:


      搜索引擎近似重復(fù)檢測框架


      通用網(wǎng)頁去重框架流程


      SimHash文檔指紋計算方法 :


      SimHash文檔指紋計算方法


      1)從文檔中提取具有權(quán)值的 特征集合來表示文檔。如:假設(shè)特征都是由詞組成的,詞的權(quán)值由詞頻TF 來確定。


      2)對每一個詞,通過哈希算法生成N位(通常情況是64位或更多)的二進制數(shù)值,如上圖,以生成8位的二進制值為例。每個詞都對應(yīng)各自不同的二進制值。


      3)在N維(上圖為8維)的向量V中,分別對每維向量進行計算。如果詞相應(yīng)的比特位的二進制數(shù)值為1,則對其特征權(quán)值進行加法運算;如果比特位數(shù)值為0,則進行減法運算,通過這種方式對向量進行更新。


      4)當所有的詞都按照上述處理完畢后,如果向量V中第i維是正數(shù),則將N位的指紋中第i位設(shè)置為1,否則為0。


      Jacccard相似性計算方法:


      Jacccard相似性計算方法


      如上圖,A和B代表2個集合,集合C代表集合A和B相同的部分。 A集合包含5個元素,B集合包含4個元素,而兩者相同的元素有2個,即集合C的大小是2. Jaccard計算兩個集合相同的元素占總元素的比例。


      如圖中,集合A和集合B共有7個不同的元素,相同元素個數(shù)2個,所以集合A和集合B的相似性為:2/7


      在實際應(yīng)用中,集合A 和 集合B 的特征都會經(jīng)過哈希計算,轉(zhuǎn)化成N位(64位甚至更多)的二進制數(shù)值,從而將集合A和B的相似性比較轉(zhuǎn)化為二進制數(shù)值的比較,稱為“海明距離”的比較。兩個位數(shù)相同(如均為64位)相同位置上不同的二進制數(shù)值的個數(shù)稱為“海明距離”。


      對給定的文檔A,假設(shè)經(jīng)過特征抽取--哈希指紋運算后的二進制數(shù)值是:1 0 0 0 0 0 1 0


      對給定的文檔B, 假設(shè)經(jīng)過特征抽取—哈希指紋運算后的二進制數(shù)值是:0 0 1 0 0 0 0 1


      經(jīng)過比較,文檔A 和 B的 第1位、第3位、第7位、第8位四個位置的數(shù)值不同,即海明距離為4. 兩個文檔的二進制位數(shù)不同的個數(shù)越多,海明距離越大。海明距離越大,說明兩個文檔不相似性越大,反之,則越小。


      不同搜索引擎可能會以不同的海明距離值 來判斷兩個網(wǎng)頁內(nèi)容是否近似重復(fù)。相關(guān)分析認為,一般情況下,對一個64位的二進制數(shù)值來說,將海明距離<=3作為判斷是否近似重復(fù)的標準比較合理.


    国产精品VIDEOSSEX久久发布| 中文精品久久久久人妻| 热re99久久精品国99热| 日韩精品少妇无码受不了| 久久久久久久久久久精品尤物 | 精品国产乱码久久久久久浪潮| 国产精品久久久久久网站| 亚洲国产精品国自产拍AV| 日韩乱码人妻无码中文字幕 | 亚洲区日韩精品中文字幕| 国产午夜无码精品免费看| 亚洲AV无码成人精品区日韩| 国产精品一国产精品| 国产午夜精品一区二区三区漫画| 日韩十八禁一区二区久久| 国产精品成人免费观看| 国产99视频精品专区| 亚洲精品线在线观看| 精品亚洲视频在线观看| 国产在线精品观看一区| 精品久久久久久亚洲精品| 伊人久久精品无码二区麻豆| 亚洲性日韩精品国产一区二区| 亚洲一区二区三区精品视频| 97久久国产露脸精品国产| 日韩免费高清一级毛片在线| 精品久久久久久久99热| 精品久久久久久中文字幕人妻最新| 一本久久a久久精品vr综合| 精品日韩一区二区| 国产精品三级av及在线观看| 2021精品国产综合久久| 久久久2019精品| 北条麻妃久久99精品| 精品一区二区91| 中文字幕日韩三级| 国产精品嫩草影院免费| 久久一本精品久久精品66| 拍真实国产伦偷精品| 国产精品宅男在线观看| 久草热8精品视频在线观看|