久久青青草原国产精品免费,久久免费视频精品,精品亚洲一区二区三区在线播放

觸屏版
全國服務熱線：0571-87205688

價格查詢批量查詢一鍵轉入

查詢

或者

立即發布需求

昵稱：花開無聲

接單：168 關注TA

達標率 0%

博文分類

中文分詞技術的分類和進行分詞的原因

作者：花開無聲 瀏覽：104次發布時間：2017-07-22

評論

贊0

　　為什么要進行中文分詞：詞是最小的能夠獨立活動的有意義的語言成分，英文單詞之間是以空格作為自然分界符的，而漢語是以字為基本的書寫單位，詞語之間沒有明顯的區分標記，因此，中文詞語分析是中文信息處理的基礎與關鍵。

　　Lucene中對中文的處理是基于自動切分的單字切分，或者二元切分。除此之外，還有最大切分(包括向前、向后、以及前后相結合)、最少切分、全切分等等。

　　中文分詞技術的分類：

　　我們討論的分詞算法可分為三大類：基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。

　　第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞，如：最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現象復雜豐富，詞典的完備性、規則的一致性等問題使其難以適應開放的大規模文本的分詞處理。第二類基于統計的分詞方法則基于字和詞的統計信息，如把相鄰字間的信息、詞頻及相應的共現信息等應用于分詞，由于這些信息是通過調查真實語料而取得的，因而基于統計的分詞方法具有較好的實用性。

上一篇：基于網站信息組織的搜索引擎優化 下一篇：spider抓取過程中涉及的網絡協議

評論(0人參與，0條評論)

發布評論

博文分類

中文分詞技術的分類和進行分詞的原因

猜你喜歡

評論(0人參與，0條評論)

最新評論