<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    什么是搜索引擎的正排索引?

    作者:安徒生 瀏覽:474 發布時間:2018-04-07
    分享 評論 0

    正排索引也稱為“前向索引”。它是創建倒排索引的基礎,具有以下字段。

    (1)Localld字段(表中簡稱“Lid”):表示一個文檔的局部編號。

    (2)Wordld字段:表示文檔分詞后的編號,也可稱為“索引詞編號”。

    (3)NHits字段:表示某個索引詞在文檔中出現的次數。

    (4)HitList變長字段:表示某個索引詞在文檔中出現的位置,即相對于正文的偏移量。

    由于一篇文章中的某些詞可能出現多次,而且位置不同,而全文檢索的本質要求是把這些位置標識出來,因此HitList中的每個命中都表示索引詞在文檔的某個位置中出現了一次,這個序列為單調遞增序列。基于游程編碼的方法,變升序序列為差分序列,采用前文提到的Variable Byte Coding方法編碼可以大大壓縮正排索引的HitList字段。

    事實上,文檔編號在不同的計算過程里,分別稱為局部編號和全局編號,它們在編號長度上稍有不同,為了便于理解,不區別這些區別,認為Localld和Docld完全一致,都表示一個文檔的唯一編號。在正排索引中Localld采用升序序列編號(假定編號采用自增1的方式遞增),這為下面的計算創造條件。進行倒排索引的轉化時,由于正排索引中Lid天然的有序性,因此在正排索引轉化為倒排索引的創建過程中,自然可以保證倒排索引中每個詞匯對應的文檔編號也是有序的.
     

    本質上說,正排索引以文檔編號為視角看待索引詞,也就是通過文檔編號去找索引詞。任給一個文檔編號,能夠知道它包含了哪些索引詞、這些索引詞分別出現的次數,以及索引詞出現的位置。然而全文索引是通過關鍵詞來檢索,而不是通過文檔編號來檢索,因此正排索引不能滿足全文檢索的要求。

    雖然正排索引不能滿足全文檢索的需要,但是正排索引為創建倒排索引創造了有利條件,是計算倒排索引的不可缺少的一環。


    国产精品国产三级国产潘金莲| 国产精品资源在线观看| 99精品福利国产在线导航| 一本之道av不卡精品| 日韩性公交车上xxhd| 日韩精品免费电影| 久久无码av亚洲精品色午夜| 国产精品高清一区二区三区不卡| 99热这里只有精品免费播放| 国产精品日韩AV在线播放| 97精品国产福利一区二区三区| 国产叼嘿久久精品久久| 免费人妻精品一区二区三区| 日韩成人精品日本亚洲| 日韩色图在线观看| 日韩亚洲欧洲在线com91tv| 国产成人综合久久精品免费| 网曝门精品国产事件在线观看 | 99久在线精品99re6视频| 日本一区精品久久久久影院| 久久成人精品视频| 老司机91精品网站在线观看| 国产精品一久久香蕉国产线看观看| 三上悠亚国产精品一区| 99re热视频这里只精品| 韩国三级中文字幕hd久久精品 | 久久久精品一区二区三区| 97久久国产露脸精品国产| 99久久精品国内| 国产亚洲色婷婷久久99精品| 亚洲精品V欧洲精品V日韩精品| 国产亚洲精品久久久久秋霞| 91精品啪在线观看国产| 中文字幕精品一区| 亚洲精品午夜无码专区| 久久精品国产91久久综合麻豆自制| 久久国产精品久久| 无码人妻精品中文字幕| 亚洲国产精品免费在线观看| 国产精品久久永久免费| 亚洲日韩精品无码专区|