如何處理重復頁面收錄的問題




在做優化的時候,重復頁面收錄是一件很頭疼的事情,搜索引擎對于重復頁面目前來說并沒有完美的解決方案,之前看到一篇文章,大意是推薦網站管理員自己去屏蔽重復頁面,我們對此可以認識百度目前的技術并不能去主動解決重復頁面的問題。
重復頁面的危害,大多會造成關鍵詞排名下降,甚至降權,那么重復頁面是如何產生的呢?經我仔細研究后發現,造成重復頁面的途徑,主要為以下幾點:
1.網站改版后URL重構,造成一個頁面有2套URL,搜索引擎抓取2套URL后,造成重復頁面。
2.網站做偽靜態,偽靜態后,動態路徑和蔚靜態共存,搜索引擎抓取后,造成重復頁面。
3.追蹤參數,為跟蹤流量來源,細分流量渠道,多數網站在推廣時會在url中帶上“?”的標記
解決方案
1.使用Canonial標簽
Canonical 是谷歌、雅虎、微軟等搜索引擎一起推出的一個標簽,它的主要作用是用來解決由于網址形式不同內容相同而造成的內容重復問題。這個標簽對搜索引擎作用非常大,簡單的說它可以讓搜索引擎只抓取你想要強調的內容,我們可以在頁面頭部設置該標簽,告訴搜索引擎該頁面的標準URL是什么。
目前已確認谷歌是支持該標簽的,百度也曾在站長平臺中確認支持該標簽,但是根據實際效果來看,百度對此支持的并不完美,仍有誤判情況出現。
2.使用robots.txt文件
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
我們可以用robots.txt文件來屏蔽其他非標準URL,如動態URL;
3.使用301重定向
頁面永久性移走(301重定向)是一種非常重要的“自動轉向”技術。網址重定向最為可行的一種辦法。當用戶或搜索引擎向網站服務器發出瀏覽請求時,服務 器返回的HTTP數據流中頭信息(header)中的狀態碼的一種,表示本網頁永久性轉移到另一個地址。在搜索引擎優化中,301技術可以告訴搜索引擎該 頁面的新URL地址,確保權重傳遞不流失。
4.追蹤標記用“#”而非“?”
為跟蹤流量來源,細分流量渠道,在URL中添加追蹤標記是必要的,但是該標記又和seo相違背,因為添加了追蹤標記,就會產生重復頁面問題。之前百度站長平臺也發布公告稱:如果是為了追蹤流量,那么建議使用“#”標記,而非“?”標記,經過本人的試驗發現百度確實不會收錄含有“#”標記的URL。
#代表網頁中的一個位置,是用來指導瀏覽器動作的,對服務器端完全無用。所以,HTTP請求中不包括#。
比如,訪問網址,www.xxx.cn/post/24.html/#weibo
瀏覽器實際發出的請求是這樣的:
GET /index.html HTTP/1.1
Host:www.xxx.cn/post/24.html
可以看到,只是請求www.xxx.cn/post/24.html,根本沒有"#weibo"的部分,搜索一部分實例后發現,百度確實未收錄含有“#”的URL;
備注:“#”和"#!"兩個標記完全不一樣,請勿混淆。