<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    百度專利關于重復檢測

    作者:聚擎 瀏覽:170 發布時間:2017-06-09
    分享 評論 0

    在之前一般是通過比較兩個頁面的內容和節點,來確認兩個頁面的相似度。這種方法能夠計算得比較準確,可時間復雜度太高,計算很費時間。通過對一個頁面中的某些重要信息進行簽名,然后比較兩個頁面的簽名,來計算相似度,這種方式比較簡單 高效,計算速度比較快,比較適合互聯網這種海量信息的應用場景!

      在百度專利《一種網頁重復的判斷系統及其判斷方法 》(申請號:201110031636.9 )中使用了新的方法對網頁庫中的網頁進行重復檢測.

      首先是對待檢測的網頁進行正文提取,正文提取的方法就是對網頁進行分塊,然后獲取正文塊,然后提取正文塊中的文章.

      提取到文章內容后,對正文進行分句,然后對每一個句子進行轉換和過濾(特殊字符),對較長的一個或幾個句子進行Hash簽名,以獲得網頁正文句子簽名.

      接著把正文句子簽名相同的文章分為一個類,我們稱之為網頁集,對該網頁集下的文章再進行下一步的判斷,這里還得再計算一些簽名

      1.網頁正文的simhash簽名

      2.真實標題的hash簽名

      3.標簽標題的hash簽名

      4.網頁摘要的hash簽名

      5.網頁內容的hash簽名

      6.位置簽名的hash簽名

      7.評論信息的hash簽名

      8.資源簽名(資源簽名是通 過對網頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的 url 進行 hash 簽名運算獲得)

      9.URL文件名的hash簽名(url文件名簽名是通過對網頁的 url 中的文件名進行 hash 簽名運算獲得)

      這些計算完了,就可以進行下一步的判斷了,真重復的網頁舉例:

      1、兩個網頁的真實標題簽名相同。

      2、兩個網頁的網頁內容簽名相同。

      3、兩個網頁的網頁正文簽名(simhash)的不同位數小于 6。

      4、兩個網頁的網頁位置簽名相同,并且 url 文件名簽名相同。

      5、評論塊簽名、資源簽名、標簽標題簽名、摘要簽名、url 文件名簽名中有三個簽名相同。

      通過兩兩頁面比較,可以得到真重復 url 的集合。一般來說,如果這個真重復 url 集合中的網頁的數量 / 整個網頁集中網頁的數量> 30%,則認為整個網頁集都是真重復, 否則就是假重復。

    精品国产一区二区二三区在线观看| 88aa四虎影成人精品| 日韩精品一区二区三区在线观看| 精品熟女碰碰人人a久久| 国产精品视频网站你懂得| 亚洲精品无码不卡| 亚洲Av无码精品色午夜 | 国产成人A人亚洲精品无码| 久久精品99无色码中文字幕| 九九精品视频在线| 激情啪啪精品一区二区| 亚洲日韩国产欧美一区二区三区| 国产精品66在线观看| 国产精品国产色综合色| 女同久久精品国产99国产精品| 麻豆精品无码国产在线果冻| 亚洲欧洲精品成人久久曰| 亚洲欧美日韩国产精品一区| 91麻豆精品国产一级| 国产亚洲精品影视在线| 99精品国产高清一区二区麻豆| 国产99精品久久| 国产精品亚洲片夜色在线| 国产成人精品免费视频网页大全| 777国产偷窥盗摄精品品在线| 91精品免费高清在线| 2020国产精品永久在线观看| 91全国探花精品正在播放| 91久久精品国产91久久性色也| 精品人无码一区二区三区| 麻豆一区二区三区精品视频| 竹菊影视国产精品| 国产成人精品日本亚洲11| 久久只这里是精品66| 亚洲精品无码久久久久秋霞| 亚洲高清国产拍精品熟女| 好吊操这里只有精品| 国产在线精品一区二区在线看| 国产伦精品一区二区三区精品 | 九九久久精品国产免费看小说| 伊在人亚洲香蕉精品区麻豆|