許久之前就有關注到TF-IDF的相關介紹,大部分的講解都是圍繞概念來講,很多人把TF-IDF稱作“算法”,筆者通讀了很多文章,甚至在自己的網站進行了運用。鑒于很多朋友說涉及到太多公式,不容易理解,本文用簡單的實例說明,談談我對TF-IDF的一些見解,不講復雜的公式,希望能幫助到各位!
首先,TF詞頻的概念與SEO建議
TF是指詞頻,查詢的關鍵詞在文檔中出現的次數統計。相關文檔是這樣介紹的,假設查詢關鍵詞在同一個文檔中出現的次數越多,代表這個關鍵詞越重要,越能代表文檔的主題意思,文章主題與關鍵詞意思越接近,那么做SEO如何運用這個知識點呢?
假設有一篇文章的標題是:“SEO服務外包”,從字面上理解,文章主要是以SEO服務為核心,“外包”為拓展詞。假設文章內容里SEO服務出現20次,服務出現25次,外包出現10次,按照TF詞頻的規則,那么SEO服務是文章主題,這個很好理解。
實際上有些時候寫文章時,在意思很明確的情況下,會省略主詞。比如SEO服務外包價格、SEO服務外包流程、SEO服務外包公司介紹,會縮寫成:外包價格、外包流程、外包公司介紹。這樣會導致外包出現的次數大于服務,TF詞頻則會認為外包是主題,出現錯誤的判斷。
那既然是這樣,做SEO關鍵詞布局的時候,應該要適當考慮主關鍵詞的出現頻率大于副詞。當然搜索引擎判斷網頁主題有很多維度,這里只是單從TF詞頻的角度考慮,個人認為這樣做會縮短搜索引擎判斷網頁主題的時間,對SEO來說是有利的。
第二、如何快速理解“IDF逆文檔頻率”
這個概念如果看文檔的話有點難理解,當初筆者看百度百科好幾次才明白。涉及到復雜的公式在這里就不講,結合TF一起來理解,TF-IDF的意思是,一篇文章中某關鍵詞出現的次數越多,且在搜索引擎的資料庫中包含該關鍵詞文檔數越少,則說明這個關鍵詞越能代表此網頁的主題。
舉個例子來說明,假設有一篇文章,有兩個關鍵詞:“SEO優化”和“SEO服務”,在文章中,這兩個關鍵詞出現的資料都是20次,但是在百度的資料庫中,包含SEO優化的文檔總共有一千萬個,包含SEO服務的文檔有五百萬個,那么則說明,SEO服務越能代表這文章的意思。或者搜索引擎資料庫中包含關鍵詞的文檔數量一樣,文章中出現次數越多的關鍵詞越能代表網頁主題。
從SEO的層面講,IDF這個值是客觀存在的,不必去深究,只要明白不同關鍵詞之間的文檔數多少就行,以百度為例,搜索任何一個關鍵詞,在搜索框下面會有一個:“百度為您找到相關結果約XXX個”的這樣句子,里面的數值可以作為文檔數參考。每個搜索引擎的包含關鍵詞的文檔數可能不一樣,但是整體的相對比例值應該是差不多的。而且隨著時間的推移,文檔數也會不斷發生改變。
評論(0人參與,0條評論)
發布評論
最新評論