網頁查重技術簡單介紹
作者:dengying
瀏覽:2169次
發布時間:2015-06-24




對于搜索引擎來說,重復的網頁內容是非常有害的。重復網頁的存在意味著這些網頁就要被搜索引擎多處理一次。更有害的是搜索引擎的索引制作中可能會在索引庫里索引兩份相同的網頁。當有人查詢時,在搜索結果中就會出現重復的網頁鏈接。所以無論是從搜索體驗還是系統效率檢索質量來說這些重負網頁都是有害處的。
網頁查重技術起源于復制檢測技術,即判斷一個文件內容是否存在抄襲、復制另外一個或多個文件的技術。
網頁和簡單的文檔不同,網頁的特殊屬性具有內容和格式等標記,因此在內容和格式上的相同相似構成了4種網頁相似的類型。
1、兩個頁面內容格式完全相同。
2、兩個頁面內容相同,但格式不同。
3、兩個頁面部分內容相同并且格式相同。
4、兩個頁面部分重要相同但格式不同。