国产精品va无码一区二区,久久久2019精品,日韩精品视频在线观看免费

觸屏版
全國服務(wù)熱線：0571-87205688

價格查詢批量查詢一鍵轉(zhuǎn)入

查詢

或者

立即發(fā)布需求

昵稱：山里的苦丁

接單：244 關(guān)注TA

達標率 0%

博文分類

搜索引擎網(wǎng)頁去重算法分析

作者：山里的苦丁 瀏覽：124次發(fā)布時間：2017-07-14

評論

贊0

　　相關(guān)統(tǒng)計數(shù)據(jù)表明：互聯(lián)網(wǎng)上近似重復(fù)的網(wǎng)頁的數(shù)量占網(wǎng)頁總數(shù)量的比例高達29%，完全相同的網(wǎng)頁大約占網(wǎng)頁總數(shù)量的22%.研究表明，在一個大型的信息采集系統(tǒng)中，30%的網(wǎng)頁是和另外70%的網(wǎng)頁完全重復(fù)或近似重復(fù)的。

　　即：互聯(lián)網(wǎng)的網(wǎng)頁中相當高的比例的網(wǎng)頁內(nèi)容是近似相同或完全相同的!

　　搜索爬蟲抓取會產(chǎn)生網(wǎng)頁重復(fù)的類型：

　　1.多個URL地址指向同一網(wǎng)頁以及鏡像站點

　　如：www.sina.com 和www.sina.com.cn

　　指向同一個站點。

　　2. 網(wǎng)頁內(nèi)容重復(fù)或近似重復(fù)

　　如抄襲、轉(zhuǎn)摘的內(nèi)容，垃圾信息等

　　網(wǎng)頁內(nèi)容近似重復(fù)檢測的兩種應(yīng)用場合：

　　一：在用戶搜索階段

　　目標是根據(jù)與用戶給定的查詢詞找到已有索引列表中近似重復(fù)的文檔，并排序輸出。

　　二：爬蟲抓取發(fā)現(xiàn)階段

　　對一個新的網(wǎng)頁，爬蟲程序通過網(wǎng)頁去重算法，最終決定是否對其索引。

　　搜索引擎整體構(gòu)架

　　近似重復(fù)網(wǎng)頁類型，根據(jù)文章內(nèi)容和網(wǎng)頁布局格式的組合分為4種形式：

　　一：兩篇文檔在內(nèi)容和布局格式上毫無區(qū)別，則這種重復(fù)稱為完全重復(fù)頁面。

　　二：兩篇文檔內(nèi)容相同，但布局格式不同，則這種重復(fù)稱為內(nèi)容重復(fù)頁面。

　　三：兩篇文檔有部分重要的內(nèi)容相同，并且布局格式相同，則這種重復(fù)稱為布局重復(fù)頁面。

　　四：兩篇文檔有部分重要內(nèi)容相同，但布局格式不同，則這種重復(fù)稱為部分重復(fù)頁面。

　　近似重復(fù)網(wǎng)頁舉例

　　重復(fù)網(wǎng)頁對搜索引擎的不利影響：

　　正常情況下，非常相似的網(wǎng)頁內(nèi)容不能或只能給用戶提供少量的新信息，但在對爬蟲進行抓取、索引和用戶搜索會消耗大量的服務(wù)器資源。

　　重復(fù)網(wǎng)頁對搜索引擎的好處：

　　如果某個網(wǎng)頁重復(fù)性很高，往往是其內(nèi)容比較比較受歡迎的一種體現(xiàn)，也預(yù)示著該網(wǎng)頁相對比較重要。應(yīng)予以優(yōu)先收錄。當用戶搜索時，在輸出結(jié)果排序時，也應(yīng)給與較高的權(quán)重。

　　重復(fù)文檔的處理方式：

　　1.刪除

　　2.將重復(fù)文檔分組

　　搜索引擎近似重復(fù)檢測流程：

　　搜索引擎近似重復(fù)檢測框架

　　通用網(wǎng)頁去重框架流程

　　SimHash文檔指紋計算方法：

　　SimHash文檔指紋計算方法

　　1)從文檔中提取具有權(quán)值的特征集合來表示文檔。如：假設(shè)特征都是由詞組成的，詞的權(quán)值由詞頻TF 來確定。

　　2)對每一個詞，通過哈希算法生成N位(通常情況是64位或更多)的二進制數(shù)值,如上圖，以生成8位的二進制值為例。每個詞都對應(yīng)各自不同的二進制值。

　　3)在N維(上圖為8維)的向量V中，分別對每維向量進行計算。如果詞相應(yīng)的比特位的二進制數(shù)值為1，則對其特征權(quán)值進行加法運算;如果比特位數(shù)值為0，則進行減法運算，通過這種方式對向量進行更新。

　　4)當所有的詞都按照上述處理完畢后，如果向量V中第i維是正數(shù)，則將N位的指紋中第i位設(shè)置為1，否則為0。

　　Jacccard相似性計算方法：

　　Jacccard相似性計算方法

　　如上圖，A和B代表2個集合，集合C代表集合A和B相同的部分。 A集合包含5個元素，B集合包含4個元素，而兩者相同的元素有2個，即集合C的大小是2. Jaccard計算兩個集合相同的元素占總元素的比例。

　　如圖中，集合A和集合B共有7個不同的元素，相同元素個數(shù)2個，所以集合A和集合B的相似性為：2/7

　　在實際應(yīng)用中，集合A 和集合B 的特征都會經(jīng)過哈希計算，轉(zhuǎn)化成N位(64位甚至更多)的二進制數(shù)值，從而將集合A和B的相似性比較轉(zhuǎn)化為二進制數(shù)值的比較，稱為“海明距離”的比較。兩個位數(shù)相同(如均為64位)相同位置上不同的二進制數(shù)值的個數(shù)稱為“海明距離”。

　　對給定的文檔A，假設(shè)經(jīng)過特征抽取--哈希指紋運算后的二進制數(shù)值是：1 0 0 0 0 0 1 0

　　對給定的文檔B, 假設(shè)經(jīng)過特征抽取—哈希指紋運算后的二進制數(shù)值是：0 0 1 0 0 0 0 1

　　經(jīng)過比較，文檔A 和 B的第1位、第3位、第7位、第8位四個位置的數(shù)值不同，即海明距離為4. 兩個文檔的二進制位數(shù)不同的個數(shù)越多，海明距離越大。海明距離越大，說明兩個文檔不相似性越大，反之，則越小。

　　不同搜索引擎可能會以不同的海明距離值來判斷兩個網(wǎng)頁內(nèi)容是否近似重復(fù)。相關(guān)分析認為，一般情況下，對一個64位的二進制數(shù)值來說，將海明距離<=3作為判斷是否近似重復(fù)的標準比較合理.

上一篇：百度搜索引擎工作原理猜想 下一篇：發(fā)外鏈不是seo的唯一工作

評論(0人參與，0條評論)

發(fā)布評論

博文分類

搜索引擎網(wǎng)頁去重算法分析

猜你喜歡

評論(0人參與，0條評論)

最新評論