<ul id="g60s4"><pre id="g60s4"></pre></ul>
<strong id="g60s4"><nav id="g60s4"></nav></strong>
<ul id="g60s4"></ul>
  • <tr id="g60s4"></tr>
  • 
    
  • 或者

    中文分詞技術的分類和進行分詞的原因

    作者:花開無聲 瀏覽:104 發布時間:2017-07-22
    分享 評論 0

      為什么要進行中文分詞:詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文信息處理的基礎與關鍵。

      Lucene中對中文的處理是基于自動切分的單字切分,或者二元切分。除此之外,還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。

      中文分詞技術的分類:

      我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。

      第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞,如:最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富,詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息,如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞,由于這些信息是通過調查真實語料而取得的,因而基于統計的分詞方法具有較好的實用性。


    精品香蕉久久久午夜福利| 亚洲综合久久精品无码色欲| 久久国产成人精品国产成人亚洲 | 成人久久精品一区二区三区| 91精品国产高清久久久久久国产嫩草| 亚洲国产精品无码久久久秋霞2| 中文字幕精品1在线| jizz国产精品网站| 日韩精品无码久久一区二区三 | 老司机精品免费视频| 亚洲精品和日本精品| 精品99在线观看| 日韩高清在线免费看| 日韩精品亚洲人成在线观看| 国产一区二区精品久久岳√| 国产成人综合久久精品下载| 最新国产精品自拍| 国产精品高清全国免费观看| 精品久久精品久久| 无码国产69精品久久久久孕妇| 在线视频精品一区| 国内精品一区二区三区在线观看| 精品久久久久久无码人妻中文字幕| 国产精品国产福利国产秒拍| 久久久国产亚洲精品| 2020精品自拍视频曝光| 91成人午夜在线精品| 久久亚洲精品国产亚洲老地址| 国产精品一区在线麻豆| 亚洲av无码成人精品区一本二本 | 国产精品高清在线观看93| 日本精品一区二区三本中文| 韩国精品福利一区二区三区| 热99re久久免费视精品频软件| 国模精品一区二区三区视频| 精品久久久久久久99热| 国产精品亚洲专区一区| 日韩精品免费一线在线观看| 亚洲高清日韩精品第一区| 亚洲日韩AV无码一区二区三区人| 精品一区二区三区中文|