HITS算法是一個非常常見的算法,無數的seoer都了解或者閱讀過百度百科,不過,對于HITS算法的深層次理解的人想來卻不是很多,例如最近在光年論壇上討論的兩個帖子,一個人是Hub主題確定處理現象,就是說首頁由于內頁的一個鏈接,導致在搜索內頁title時候出現結果卻是首頁http://www.baidu.com/thread-15-1-1.html,另一個是GSA的測試http://www.baidu.com/thread-12-1-1.html,得出來的結果是含有錨鏈接的詞域降低了TF。其實仔細想下,這兩個現象都是和hits算法有關的,第二個的結論也是錯誤的,第一個的說法也沒有說道實質上。不信,你可以仔細閱讀下HITS算法就知道了。
說到HITS算法,我們可以說到兩個值authority值與hub值的問題,一個是內容質量權威度一個是鏈接質量權威度(個人為了容易區分)。HITS算法最大的優勢是基于主題關鍵詞的計算,相對于PR僅僅計算鏈接關系來說,降低了內容挖掘和結構挖掘的量度,但是由于關系的復雜性和人為因素的影響,hits算法也有非常多的盲點和缺憾,其中最重要的有4點問題:
1,Hub主題難以確定-authority的主題漂移
由于hub頁面的主題是由鏈向的頁面確定的,很多時候鏈向頁面的主題是非常復雜的,這樣就導致了主題的多樣性,例如光年論壇的第一個問題就是最好的證明。而且這種指向有時候是非常多的,導致首頁的hub權重也非常高,影響就非常大。被指向的頁面也會出現這樣的事情,最常見的就是主題漂移。
其實解決這個問題,最好的辦法是加大meta標簽的權重,但是現實上并不理想,另外的方法就是降低hub頁面的hub權重。(看到資料上有人說采用平均值降低hub頁面的hub值,個人覺得很無語。谷歌PR修正算法中其實已經涉及到權重值的分配問題,所以剩下的就是主題性的確定,百度對于這個技術確實不行,所以很容易出現這些事情也是正常的。)
評論(0人參與,0條評論)
發布評論
最新評論