上述優質網頁進了索引庫,那其實互聯網上大部分網站根本沒有被百度收錄。并非是百度沒有發現他們,而是在建庫前的篩選環節被過濾掉了。那怎樣的網頁在最初環節就被過濾掉了呢:
1, 重復內容的網頁:互聯網上已有的內容,百度必然沒有必要再收錄。
2, 主體內容空短的網頁
1)有些內容使用了百度spider無法解析的技術,如JS、AJAX等,雖然用戶訪問能看到豐富的內容,依然會被搜索引擎拋棄
2)加載速度過慢的網頁,也有可能被當作空短頁面處理,注意廣告加載時間算在網頁整體加載時間內。
3)很多主體不突出的網頁即使被抓取回來也會在這個環節被拋棄。
3, 部分作弊網頁
評論(0人參與,0條評論)
發布評論
最新評論